Maschinelles Lernen: Symbolische Ansätze - WS 12/13
Die Veranstaltung im Vorlesungsverzeichnis.
Hinweis: |
Tag | Zeit | Raum | Start |
---|---|---|---|---|
Vorlesung | Mittwoch | 18:05 - 19:45 | S202/C205 | 17.10. |
Übung | Dienstag | 09:50 - 11:30 | S202/C205 |
23.10. |
Die Klausureinsicht findet am 15.4. von 13:00-15:00 Uhr in Raum A213 statt.
Inhalt
Durch die Entwicklung der Informationstechnologie sind immer größere Datenmengen verfügbar. Diese enthalten oft implizites Wissen, das, wenn es bekannt wäre, große wirtschaftliche oder wissenschaftliche Bedeutung hätte. Data Mining ist ein Forschungsgebiet, das sich mit der Suche nach potentiell nützlichem Wissen in großen Datenmengen beschäftigt, und Maschinelles Lernverfahren gehören zu den Schlüsseltechnologien innerhalb dieses Gebiets.
Die Vorlesung bietet eine Einführung in das Gebiet des Maschinellen Lernens unter dem besonderen Aspekt des Data Minings. Es werden Verfahren aus verschiedenen Paradigmen des Maschinellen Lernens mit exemplarischen Anwendungen vorgestellt. Um das Wissen zu operationalisieren, werden in den Übungen praktische Erfahrungen mit Lernalgorithmen gesammelt.
- Organisatorisches [update 19.10.]
- Einführung (Grundbegriffe, Lernprobleme, Konzepte, Beispiele, Repräsentation) [update 19.10.]
- Regel-Lernen
- Lernen einzelner Regeln (Generalisierung und Spezialisierung, Strukturierte Hypothesenräume, Version Spaces) [update 14.11., Korrekturen im Pseudo-Code zu FindG und FindGSet]
- Lernen von Regel-Mengen (Covering Strategie, Evaluierungsmaße für Regeln, Pruning, Mehr-Klassenprobleme) [update 14.11.]
- Evaluierung und kosten-sensitives Lernen (Accuracy,X-Val,ROC-Kurven,Cost-Sensitive Learning) [update 28.11.]
- Instanzenbasiertes Lernen (kNN,IBL,NEAR,RISE) [update 11.12.]
- Entscheidungsbaum-Lernen (ID3, C4.5, etc.) [update 8.1.]
- Ensemble-Methoden (Bias/Variance, Bagging, Randomization, Boosting, Stacking, ECOCs)
- Pre-Processing (Feature Subset Selection, Diskretisierung, Sampling, Data Cleaning) [update 24.1., einige neue Folien]
- Clustering und Lernen von Assoziationsregeln (Apriori)
Übungen
In den Übungen erhalten Sie Aufgaben über den Vorlesungsstoff, oft alte Klausur-Aufgaben, die Sie selbst lösen sollen, und die dann in der folgenden Übungsstunde durchbesprochen werden.
- Übung 0, 23.10.12: Übung 0
- Übung 1, 30.10.12: Klassifikation [Muster Lösung]
- Übung 2, 06.11.12: Einzelregeln [Muster Lösung]
- Übung 3, 13.11.12: Version Spaces [Muster Lösung]
- Übung 4, 20.11.12: Regellernen I [Muster Lösung] [update 20.11]
- Übung 5, 27.11.12: Regellernen II [Muster Lösung]
- Übung 6, 04.12.12: Evaluierung [Muster Lösung]
- Übung 7, 11.12.12: Instance-based learning [Muster Lösung]
- Übung 8, 18.11.12: Instance-based learning II [Muster Lösung]
- Übung 9, 15.01.13: Decision Trees I [Muster Lösung]
- Übung 10, 22.01.13: Decision Trees II [Muster Lösung]
- Übung 11, 29.01.13: Ensembles [Muster Lösung]
- Übung 12. 05.02.13: Preprocessing [Muster Lösung] [update 04.02]
- Übung 13. 12.02.13: Assoziationsregeln [Muster Lösung] [update 11.02]
Klausur
Die Klausur wird am 19.2.2013 in Raum C205 von 10-12h stattfinden.
Alte Klausuren finden Sie hier, so wie hier. [update 13.2]
Projekt
Ziel des Projektes ist es, praktische Erfahrungen im Maschinellem Lernen zu sammeln. Hierzu sollen mehrere Projektaufgaben mit Hilfe des Machine Learning Frameworks Weka gelöst werden. Das Projekt kann allein bzw. in einer Kleingruppe (maximal 3 Studenten, Name + Matrikelnr. müssen in der Abgabe und Anmeldung ersichtlich sein) bearbeitet werden. Die Abgabe soll in einem üblichen Präsentationsformat (z.B. OpenOffice, PowerPoint oder PDF) erfolgen. Jede Gruppe muss zudem jeweils eine Aufgabe im Rahmen der Übung präsentieren. (ca. 5-10 min) Die Folien sollten allerdings selbstredend, also auch ohne den dazugehörigen Vortrag verständlich sein. Senden Sie bitte ihre Anmeldung & Abgabe an diese E-Mail-Adresse: ml-projekt@ke.tu-darmstadt.de.
Das Projekt [update 03.12] besteht aus 9 Aufgaben. Benutzen Sie für die Bearbeitung die hier bereitgestellte Sammlung an Klassifikations- und Regressionsdatensätzen. Für die erfolgreiche Bearbeitung gibt es einen Bonus von bis zu 10 Klausurpunkten, allerdings nur bei bestandener Klausur.
Forum
Das Diskussionsforum zur Lehrveranstaltung finden Sie hier.
Materialien
Literatur
Die folgenden beiden Lehrbücher behandeln einen Großteil des Stoffes:
- Tom Mitchell, Machine Learning, McGraw Hill 1997.
- Ian H. Witten, Eibe Frank, Data Mining: Practical Machine Learning Tools and Techniques with Java Implementations, Morgan Kaufmann, 2nd edition 2005. (Die zweite Ausgabe ist um einiges umfangreicher als die erste).
Während die Lehrbücher den Stoff im Großen und Ganzen behandeln, und in vielen Punkten auch noch tiefer gehen, werden in der Vorlesung zum Teil andere Schwerpunkte gesetzt. Als ergänzende Literatur empfehlen wir im Wesentlichen die folgenden Arbeiten (bitte auf Updates achten):
- Einführung
- Mitchell, ch. 1
- Witten & Frank, ch. 1
- Regel-Lernen
- Mitchell, ch.3, ch. 10
- Witten & Frank, 3.3, 4.4, 6.2
- Johannes Fürnkranz and Peter Flach. ROC 'n' rule learning -- towards a better understanding of covering algorithms. Machine Learning, 58(1):39-77, 2005.
- Entscheidungsbaum-Lernen
- Mitchell, ch.3
- Witten & Frank, 3.2, 4.3, 6.1
- J. R. Quinlan. Induction of decision trees. Machine Learning, 1:81-106, 1986.
- Inkrementelles Lernen
- Utgoff, P.E. Incremental induction of decision trees. Machine Learning, 4, 161-186, 1989.
- Naive Bayes
- Mitchell, 6.1-6.9
- Witten & Frank, 4.2
- Instance-Based Learning
- Mitchell, 8.1, 8.2, 8.5, 8.6
- Witten & Frank, 3.8, 4.7, 6.4
- Evaluation and Cost-Sensitive Learning
- Witten & Frank, 5.1-5.5, 5.7
- Tom Fawcett: An Introduction to ROC Analysis, Pattern Recognition Letters 27(8): 861-874 (2006).
- Peter Flach: The many faces of ROC analysis in machine learning, Tutorial held at ICML-04.
- Charles Elkan: The Foundations of Cost-Sensitive Learning. In Proceedings of the 17th International Joint Conference on Artificial Intelligence (IJCAI-01), pp. 973-978.
- Association Rules
- Witten & Frank, 3.4, 4.5
- Bart Goethals. Survey on Frequent Pattern Mining. Manuscript, 2003.
- Ensemble Methods
- Thomas G. Dietterich. Ensemble methods in machine learning. In J. Kittler and F. Roli (Ed.) First International Workshop on Multiple Classifier Systems, Lecture Notes in Computer Science (pp. 1-15). New York: Springer Verlag.
- Boosting animiert
Papers zu vielen Themen finden Sie oft auch mit CiteSeer, DER Suchmaschine für wissenschaftliche Texte der Informatik
Machine-Learning-Werkzeuge
- Weka
- QDA (Qualitative Data Analysis)
- Rapid Miner (formerly YALE - Yet Another Learning Environment)
Beispiel-Datensätze
- Weka stellt auch einige Datensätze bereit
- UCI Machine Learning Repository