Data Mining und Maschinelles Lernen (Maschinelles Lernen: Symbolische Ansätze) - WS 14/15
Achtung: Am 4.2.2015 findet keine Vorlesung statt!
Die Klausurnoten sind in TUCaN eingetragen. Eine Punkteliste hängt an der Pinwand neben Raum D 205. Die Klausureinsicht findet statt am Donnerstag, den 23.04.2015 von 15:00-16:00 Uhr in Raum E 202.
Termine
|
Tag |
Zeit |
Raum |
Start |
---|---|---|---|---|
Vorlesung | Mittwoch |
18:05 - 19:45 |
S202/C205 |
15.10. |
Übung | Dienstag |
09:50 - 11:30 |
S202/C205 |
21.10. |
Inhalt
Durch die Entwicklung der Informationstechnologie sind immer größere Datenmengen verfügbar. Diese enthalten oft implizites Wissen, das, wenn es bekannt wäre, große wirtschaftliche oder wissenschaftliche Bedeutung hätte. Data Mining ist ein Forschungsgebiet, das sich mit der Suche nach potentiell nützlichem Wissen in großen Datenmengen beschäftigt, und Maschinelles Lernverfahren gehören zu den Schlüsseltechnologien innerhalb dieses Gebiets.
Die Vorlesung bietet eine Einführung in das Gebiet des Maschinellen Lernens unter dem besonderen Aspekt des Data Minings. Es werden Verfahren aus verschiedenen Paradigmen des Maschinellen Lernens mit exemplarischen Anwendungen vorgestellt. Um das Wissen zu operationalisieren, werden in den Übungen praktische Erfahrungen mit Lernalgorithmen gesammelt.
- Organisatorisches
- Einführung (Grundbegriffe, Lernprobleme, Konzepte, Beispiele, Repräsentation)
- Regel-Lernen
- Konzept-Lernen und Versionsräume (Generalisierung und Spezialisierung, Strukturierte Hypothesenräume, Version Spaces)
- Lernen einzelner Regeln und Subgroup Discovery (Top-down Hill-Climbing, Beam Search, Coverage Space, Heuristiken, Predictive vs. Descriptive Data Mining)
- Lernen von Regel-Mengen (Covering Strategie, Pruning, Mehr-Klassenprobleme)
- Evaluierung und kosten-sensitives Lernen (Accuracy,X-Val,ROC-Kurven,Cost-Sensitive Learning)
- Instanzenbasiertes Lernen (kNN,IBL,NEAR,RISE)
- Entscheidungsbaum-Lernen (ID3, C4.5, etc.)
- Ensemble-Methoden (Bias/Variance, Bagging, Randomization, Boosting, Stacking, ECOCs)
- Pre-Processing (Feature Subset Selection, Diskretisierung, Sampling, Data Cleaning)
- Clustering und Lernen von Assoziationsregeln (Apriori)
Übungen
In den Übungen erhalten Sie Aufgaben über den Vorlesungsstoff, oft alte Klausur-Aufgaben, die Sie selbst lösen sollen, und die dann in der folgenden Übungsstunde durchbesprochen werden.
- Übung 0, 21.10.14: Organisatorisches
- Übung 1, 28.10.14: Klassifikation - Musterlösung
- Übung 2, 05.11.14: Einzel Regeln - Musterlösung
- Übung 3, 11.11.14: Version Spaces - Musterlösung
- Übung 4, 18.11.14: Regelmengen - Musterlösung
- Übung 5, 25.11.14: Heuristiken - Musterlösung
- Übung 6, 2.12.14: Evaluation - Musterlösung
- Übung 7, 9.12.14: Instanz-basiertes Lernen - Musterlösung
- Übung 8, 16.12.14: Instanz-basiertes Lernen II - Musterlösung
- Übung 9, 13.01.15: Entscheidungsbäume - Musterlösung
- Übung 10, 20.01.15: Entscheidungsbäume II - Musterlösung
- Übung 11, 27.01.15: Ensembles - Musterlösung
- Übung 12, 03.02.15: Preprocessing - Musterlösung
- Übung 13, 10.02.15: Assoziations Regeln - Musterlösung
Klausur
Die Klausur findet statt am Dienstag, dem 17.02.15 von 12:00-14:00 Uhr.
Erlaubte Unterlagen: Sie dürfen ein von Ihnen selbst doppelseitig handbeschriebenes DIN A4-Blatt zur Klausur mitbringen. Ausländische Studenten dürfen ein entsprechendes Wörterbuch mitbringen. Alle anderen Unterlagen, insbesondere Elektronische Hilfsmittel (Taschenrechner, Handy, elektronisches Wörterbuch, etc.) sind nicht erlaubt. Eine englische Übersetzung der Klausur wird bei Bedarf gestellt.
Projekt
Ziel des Projektes ist es, praktische Erfahrungen im Maschinellem Lernen zu sammeln. Hierzu sollen mehrere Projektaufgaben mit Hilfe des Machine Learning Frameworks Weka gelöst werden. Des weiteren folgt im späterem Verlauf eine Implementierungsaufgabe. Das Projekt kann allein bzw. in einer Kleingruppe (maximal 3 Studenten, Name + Matrikelnr. müssen in der Abgabe und Anmeldung ersichtlich sein) bearbeitet werden. Die Abgabe soll in einem üblichen Präsentationsformat (z.B. OpenOffice, PowerPoint oder PDF) erfolgen, sowie der Java-Quellcode für die Programmieraufgabe. Die Abgaben müssen bis spätestens 24:00 am Stichtag erfolgt sein.
Für einen Klausurbonus ist es nicht zwingend nötig alle Aufgaben zu bearbeiten. Bei Teilabgaben kann noch ein entsprechender Teilbonus erreicht werden. Das Implementationsprojekt umfasst etwa 1/3 der zu erreichenden Punkte.
Senden Sie bitte ihre Anmeldung & Abgabe an diese E-Mail-Adresse: ml-projekt@ke.tu-darmstadt.de.
Dateien: Analyse Aufgaben, Datensätze, Implementations Aufgabe, Framework
Forum
Das Diskussionsforum zur Lehrveranstaltung finden Sie hier.
Materialien
Literatur
Die folgenden Lehrbücher behandeln einen Großteil des Stoffes:
- Tom Mitchell, Machine Learning, McGraw Hill 1997.
- Ian H. Witten, Eibe Frank, Mark HallData Mining: Practical Machine Learning Tools and Techniques with Java Implementations, Morgan Kaufmann, 3nd edition, 2011.
- Johannes Fürnkranz, Dragan Gamberger, Nada Lavrac, Foundations of Rule Learning, Springer-Verlag, 2012.
- Peter Flach, Machine Learning: The Art and Science of Algorithms that Make Sense of Data, Cambridge University Press, 2012.
Als ergänzende Literatur empfehlen wir im Wesentlichen die folgenden Kapitel aus diesen Lehrbüchern:
- Einführung
- Mitchell, ch. 1
- Witten & Frank, ch. 1
- Fürnkranz, Gamberger & Lavrac, ch. 1
- Flach, ch. 1
- Regel-Lernen
- Mitchell, ch.3, ch. 10
- Witten & Frank, 3.3, 4.4, 6.2
- Fürnkranz, Gamberger & Lavrac, ch. 2,3,6 - 10
- Flach, ch.6.1-6.2
- Evaluation and Cost-Sensitive Learning
- Witten & Frank, 5.1-5.5, 5., 5.8
- Flach, ch.2, 12
- Instance-Based Learning
- Mitchell, 8.1, 8.2, 8.5, 8.6
- Witten & Frank, 3.8, 4.7, 6.4
- Flach, ch. 8.1-8.3
- Entscheidungsbaum-Lernen
- Mitchell, ch.3
- Witten & Frank, 3.2, 4.3, 6.1
- J. R. Quinlan. Induction of decision trees. Machine Learning, 1:81-106, 1986.
- Flach, ch. 5
- Ensemble Methods
- Witten & Frank, ch. 8
- Flach, ch. 11
- Boosting animiert
- Pre-Processing
- Witten & Frank, ch. 7.1-7.5
- Clustering und Association Rules
- Witten & Frank, 3.4, 4.5, 6.3
- Flach, ch. 6.3, 8.4, 8.5
- Bart Goethals. Survey on Frequent Pattern Mining. Manuscript, 2003.
Machine-Learning-Werkzeuge
Beispiel-Datensätze
- Weka stellt auch einige Datensätze bereit
- UCI Machine Learning Repository