Data Mining und Maschinelles Lernen - WS 16/17
LVA 20-00-0052-iv - Prof. Dr. J. Fürnkranz
Die Noten der DMML Klausur SS2017 sind in TUCaN
veröffentlich. Die Punkteliste mit gekürzten Matrikelnummern hängt ab
morgen (31.08.17) an der Pinwand neben Raum D 205.
Die Klausureinsicht findet statt am Freitag, dem 20.10.17 von 15:30-16:30 Uhr in Raum E 202.
Inhalt
Durch die Entwicklung der Informationstechnologie sind immer größere Datenmengen verfügbar. Diese enthalten oft implizites Wissen, das, wenn es bekannt wäre, große wirtschaftliche oder wissenschaftliche Bedeutung hätte. Data Mining ist ein Forschungsgebiet, das sich mit der Suche nach potentiell nützlichem Wissen in großen Datenmengen beschäftigt, und Maschinelles Lernverfahren gehören zu den Schlüsseltechnologien innerhalb dieses Gebiets.
Die Vorlesung bietet eine Einführung in das Gebiet des Maschinellen Lernens unter dem besonderen Aspekt des Data Minings. Es werden Verfahren aus verschiedenen Paradigmen des Maschinellen Lernens mit exemplarischen Anwendungen vorgestellt. Um das Wissen zu operationalisieren, werden in den Übungen praktische Erfahrungen mit Lernalgorithmen gesammelt.
- Organisatorisches
- Einführung (Grundbegriffe, Lernprobleme, Konzepte, Beispiele, Repräsentation)
- Regel-Lernen
- Konzept-Lernen und Versionsräume (Generalisierung und Spezialisierung, Strukturierte Hypothesenräume, Version Spaces)
- Lernen einzelner Regeln und Subgroup Discovery (Top-down Hill-Climbing, Beam Search, Coverage Space, Heuristiken, Predictive vs. Descriptive Data Mining) (Updated nach der Vorlesung 3.11.2016)
- Lernen von Regel-Mengen (Covering Strategie, Pruning, Mehr-Klassenprobleme)
(Updated nach der Vorlesung 10.11.2016)
Link zu Overfitting Thriller
- Evaluierung und kosten-sensitives Lernen (Accuracy,X-Val,ROC-Kurven,Cost-Sensitive Learning)
- Instanzenbasiertes Lernen (kNN,IBL,NEAR,RISE)
- Entscheidungsbaum-Lernen (ID3, C4.5, etc.)
(Updated nach der Vorlesung 15.12.2016) - Ensemble-Methoden (Bias/Variance, Bagging, Randomization, Boosting, Stacking, ECOCs)
- Pre-Processing (Feature Subset Selection, Diskretisierung, Sampling, Data Cleaning)
- Clustering und Lernen von Assoziationsregeln (Apriori)
Termine
Allgemein findet die Veranstaltung im folgenden Rhythmus statt:
Tag | Zeit | Raum | Start | |
---|---|---|---|---|
Vorlesung | Donnerstag | 11:40 - 13:20 | S202/C205 | 25.10. |
Übung | Dienstag | 11:40 - 13:20 | S202/C205 |
01.11. |
Sprechstunde | Mittwoch | 11:00 - 12:30 | S202/A213 |
26.10. |
Jedoch können sich, auch kurzfristig, Änderungen ergeben, die Sie aus der folgenden vorläufigen Planung entnehmen können:
Übungen
Betreuung: Markus Zopf, Sebastian Kauschke
In den Übungen erhalten Sie Aufgaben über den Vorlesungsstoff, oft alte Klausur-Aufgaben, die Sie selbst lösen sollen, und die dann in der folgenden Übungsstunde durchbesprochen werden.
Übungsblatt | Besprechung vrsl. am | Lösungsvorschlag | |
---|---|---|---|
Organistation | Organisation | - | - |
Übung 1 | Klassifikation | 08.11.2016 | Klassifikation MuLö |
Übung 2 | Single Rule | 15.11.2016 | Single Rule MuLö |
Übung 3 | Version Spaces | 22.11.2016 | Version Spaces MuLö |
Übung 4 | Rule Learning I |
29.11.2016 | Rule Learning I Mulö |
Übung 5 | Rule Learning II |
06.12.2016 | Rule Learning II Mulö |
Übung 6 | Evaluation | 13.12.2016 | Evaluation Mulö |
Übung 7 | IBL I |
20.12.2016 | IBL I Mulö |
Übung 8 | IBL II |
10.01.2017 | IBL II Mulö |
Übung 9 | Trees I |
17.01.2017 | Trees I Mulö |
Übung 10 | Trees II |
24.01.2017 | Trees II Mulö |
Übung 11 | Boosting+Preprocessing |
31.01.2017 | Boosting+PreProc Mulö |
Übung 12 | Assoziationsregeln |
07.02.2017 | Assoziationsregeln Mulö |
Projekt
Ziel des Projektes ist es, praktische Erfahrungen im Maschinellem Lernen zu sammeln. Hierzu sollen mehrere Projektaufgaben mit Hilfe des Machine-Learning-Frameworks Weka gelöst werden. Des Weiteren folgt im späterem Verlauf eine Implementierungsaufgabe. Das Projekt soll in Kleingruppen von je 3 Studenten bearbeitet werden. Die Abgabe soll in einem üblichen Präsentationsformat (z.B. PDF-Folien) erfolgen.
Aufgaben | Abgabe vrsl. am | ||
---|---|---|---|
Projekt I | 1-3 | 20.12.2016 | |
Projekt II | 4-6 | 24.01.2017 | |
Projekt III | 7-9 | 07.02.2016 | |
Projekt IV | Implementierung | 07.02.2016 |
In Moodle (https://moodle.informatik.tu-darmstadt.de/course/view.php?id=158) werden die Abgaben zum Projekt hochgeladen. Bitte nutzen Sie auch das dortige Forum (oder das d120 Forum) um sich in Gruppen zu je 3 Personen zusammenzufinden.
Klausur
Die Klausur findet am Donnerstag, den 16.02.2017 von 10:00 - 12:00 Uhr statt.
Raumaufteilung:
- Nachname A-F: S2|02 C205
- Nachname G-Z: S1|01 A1 (Audimax)
Erlaubte Unterlagen: Sie dürfen ein von Ihnen selbst doppelseitig handbeschriebenes DIN A4-Blatt zur Klausur mitbringen. Ausländische Studenten dürfen ein entsprechendes Wörterbuch mitbringen. Alle anderen Unterlagen, insbesondere Elektronische Hilfsmittel (Taschenrechner, Handy, elektronisches Wörterbuch, etc.) sind nicht erlaubt.
Alte Klausuren
Forum
Das Diskussionsforum zur Lehrveranstaltung finden Sie hier.
Materialien
Literatur
Die folgenden Lehrbücher behandeln einen Großteil des Stoffes:
- Tom Mitchell, Machine Learning, McGraw Hill 1997.
- Ian H. Witten, Eibe Frank, Mark HallData Mining: Practical Machine Learning Tools and Techniques with Java Implementations, Morgan Kaufmann, 3nd edition, 2011.
- Johannes Fürnkranz, Dragan Gamberger, Nada Lavrac, Foundations of Rule Learning, Springer-Verlag, 2012.
- Peter Flach, Machine Learning: The Art and Science of Algorithms that Make Sense of Data, Cambridge University Press, 2012.
Als ergänzende Literatur empfehlen wir im Wesentlichen die folgenden Kapitel aus diesen Lehrbüchern:
- Einführung
- Mitchell, ch. 1
- Witten & Frank, ch. 1
- Fürnkranz, Gamberger & Lavrac, ch. 1
- Flach, ch. 1
- Regel-Lernen
- Mitchell, ch.3, ch. 10
- Witten & Frank, 3.3, 4.4, 6.2
- Fürnkranz, Gamberger & Lavrac, ch. 2,3,6 - 10
- Flach, ch.6.1-6.2
- Evaluation and Cost-Sensitive Learning
- Witten & Frank, 5.1-5.5, 5., 5.8
- Flach, ch.2, 12
- Instance-Based Learning
- Mitchell, 8.1, 8.2, 8.5, 8.6
- Witten & Frank, 3.8, 4.7, 6.4
- Flach, ch. 8.1-8.3
- Entscheidungsbaum-Lernen
- Mitchell, ch.3
- Witten & Frank, 3.2, 4.3, 6.1
- J. R. Quinlan. Induction of decision trees. Machine Learning, 1:81-106, 1986.
- Flach, ch. 5
- Ensemble Methods
- Witten & Frank, ch. 8
- Flach, ch. 11
- Boosting animiert
- Pre-Processing
- Witten & Frank, ch. 7.1-7.5
- Clustering und Association Rules
- Witten & Frank, 3.4, 4.5, 6.3
- Flach, ch. 6.3, 8.4, 8.5
- Bart Goethals. Survey on Frequent Pattern Mining. Manuscript, 2003.
Machine-Learning-Werkzeuge
Beispiel-Datensätze
- Weka stellt auch einige Datensätze bereit
- UCI Machine Learning Repository