Maschinelles Lernen: Symbolische Ansätze - WS 13/14
Die Veranstaltung im Vorlesungsverzeichnis.
Aktuelles
Die Notenliste hängt nun aus.
Die Klausureinsicht findet am 16.4. von 15:30 bis 17:00 in Raum A313 statt.
Hinweis:
|
Tag | Zeit | Raum | Start |
---|---|---|---|---|
Vorlesung | Mittwoch | 18:05 - 19:45 | S202/C205 | 16.10. |
Übung | Dienstag | 09:50 - 11:30 | S202/C205 |
22.10. |
Inhalt
Durch die Entwicklung der Informationstechnologie sind immer größere Datenmengen verfügbar. Diese enthalten oft implizites Wissen, das, wenn es bekannt wäre, große wirtschaftliche oder wissenschaftliche Bedeutung hätte. Data Mining ist ein Forschungsgebiet, das sich mit der Suche nach potentiell nützlichem Wissen in großen Datenmengen beschäftigt, und Maschinelles Lernverfahren gehören zu den Schlüsseltechnologien innerhalb dieses Gebiets.
Die Vorlesung bietet eine Einführung in das Gebiet des Maschinellen Lernens unter dem besonderen Aspekt des Data Minings. Es werden Verfahren aus verschiedenen Paradigmen des Maschinellen Lernens mit exemplarischen Anwendungen vorgestellt. Um das Wissen zu operationalisieren, werden in den Übungen praktische Erfahrungen mit Lernalgorithmen gesammelt.
- Organisatorisches
- Einführung (Grundbegriffe, Lernprobleme, Konzepte, Beispiele, Repräsentation)
- Regel-Lernen
- Lernen einzelner Regeln (Generalisierung und Spezialisierung, Strukturierte Hypothesenräume, Version Spaces)
- Lernen von Regel-Mengen (Covering Strategie, Evaluierungsmaße für Regeln, Pruning, Mehr-Klassenprobleme)
- Evaluierung und kosten-sensitives Lernen (Accuracy,X-Val,ROC-Kurven,Cost-Sensitive Learning)
- Instanzenbasiertes Lernen (kNN,IBL,NEAR,RISE)
- Entscheidungsbaum-Lernen (ID3, C4.5, etc.)
- Ensemble-Methoden (Bias/Variance, Bagging, Randomization, Boosting, Stacking, ECOCs)
- Pre-Processing (Feature Subset Selection, Diskretisierung, Sampling, Data Cleaning)
- Clustering und Lernen von Assoziationsregeln (Apriori)
Übungen
In den Übungen erhalten Sie Aufgaben über den Vorlesungsstoff, oft alte Klausur-Aufgaben, die Sie selbst lösen sollen, und die dann in der folgenden Übungsstunde durchbesprochen werden.
- Übung 0, 22.10.13: Organisatorisches
- Übung 1, 29.10.13: Klassifikation - Musterlösung
- Übung 2, 05.11.13: Einzel Regeln - Musterlösung
- Übung 3, 12.11.13: Version Spaces - Musterlösung
- Übung 4, 19.11.13: Separate and Conquer - Musterlösung [corrected: 27.01]
- Übung 5, 26.11.13: Regel Lernen - Musterlösung [corrected: 4.02]
- Übung 6, 03.11.13: Evaluation - Musterlösung
- Übung 7, 10.11.13: Nearest Neighbour [corrected: 10.12] - Musterlösung
- Übung 8, 14.01.14: RISE & KD-Trees - Musterlösung
- Übung 9, 21.01.14: Decision-Trees - Musterlösung
- Übung 10. 28.01.14: Regression-Trees - Musterlösung
- Übung 11. 04.02.14: Ensembles - Musterlösung
- Übung 12. 04/11.02.14: Preprocessing - Musterlösung
- Übung 13. 11.02.14: Apriori - Musterlösung
Klausur
Projekt
Ziel des Projektes ist es, praktische Erfahrungen im Maschinellem Lernen zu sammeln. Hierzu sollen mehrere Projektaufgaben mit Hilfe des Machine Learning Frameworks Weka gelöst werden. Das Projekt kann allein bzw. in einer Kleingruppe (maximal 3 Studenten, Name + Matrikelnr. müssen in der Abgabe und Anmeldung ersichtlich sein) bearbeitet werden. Die Abgabe soll in einem üblichen Präsentationsformat (z.B. OpenOffice, PowerPoint oder PDF) erfolgen. Jede Gruppe muss zudem jeweils eine Aufgabe im Rahmen der Übung präsentieren. (ca. 5-10 min) Die Folien sollten allerdings selbstredend, also auch ohne den dazugehörigen Vortrag verständlich sein. Senden Sie bitte ihre Anmeldung & Abgabe an diese E-Mail-Adresse: ml-projekt@ke.tu-darmstadt.de.
Das Projekt besteht aus 9 Aufgaben. Benutzen Sie für die Bearbeitung die hier bereitgestellte Sammlung an Klassifikations- und Regressionsdatensätzen. Für die erfolgreiche Bearbeitung gibt es einen Bonus von bis zu 10 Klausurpunkten, allerdings nur bei bestandener Klausur.
Forum
Das Diskussionsforum zur Lehrveranstaltung finden Sie hier.
Materialien
Literatur
Die folgenden Lehrbücher behandeln einen Großteil des Stoffes:
- Tom Mitchell, Machine Learning, McGraw Hill 1997.
- Ian H. Witten, Eibe Frank, Mark HallData Mining: Practical Machine Learning Tools and Techniques with Java Implementations, Morgan Kaufmann, 3nd edition, 2011.
- Johannes Fürnkranz, Dragan Gamberger, Nada Lavrac, Foundations of Rule Learning, Springer-Verlag, 2012.
- Peter Flach, Machine Learning: The Art and Science of Algorithms that Make Sense of Data, Cambridge University Press, 2012.
Als ergänzende Literatur empfehlen wir im Wesentlichen die folgenden Kapitel aus diesen Lehrbüchern:
- Einführung
- Mitchell, ch. 1
- Witten & Frank, ch. 1
- Fürnkranz, Gamberger & Lavrac, ch. 1
- Flach, ch. 1
- Regel-Lernen
- Mitchell, ch.3, ch. 10
- Witten & Frank, 3.3, 4.4, 6.2
- Fürnkranz, Gamberger & Lavrac, ch. 2,3,6 - 10
- Flach, ch.6.1-6.2
- Evaluation and Cost-Sensitive Learning
- Witten & Frank, 5.1-5.5, 5., 5.8
- Flach, ch.2, 12
- Instance-Based Learning
- Mitchell, 8.1, 8.2, 8.5, 8.6
- Witten & Frank, 3.8, 4.7, 6.4
- Flach, ch. 8.1-8.3
- Entscheidungsbaum-Lernen
- Mitchell, ch.3
- Witten & Frank, 3.2, 4.3, 6.1
- J. R. Quinlan. Induction of decision trees. Machine Learning, 1:81-106, 1986.
- Flach, ch. 5
- Ensemble Methods
- Witten & Frank, ch. 8
- Flach, ch. 11
- Boosting animiert
- Pre-Processing
- Witten & Frank, ch. 7.1-7.5
- Clustering und Association Rules
- Witten & Frank, 3.4, 4.5, 6.3
- Flach, ch. 6.3, 8.4, 8.5
- Bart Goethals. Survey on Frequent Pattern Mining. Manuscript, 2003.
Machine-Learning-Werkzeuge
Beispiel-Datensätze
- Weka stellt auch einige Datensätze bereit
- UCI Machine Learning Repository