Data Mining und Maschinelles Lernen - WS 18/19
LVA 20-00-0052-iv (vormals "Maschinelles Lernen: Symbolische Ansätze") - Prof. Dr. J. Fürnkranz
Diese Vorlesung bietet eine Einführung in die Themen maschinelles Lernen und Data Mining mit Schwerpunkt auf Lernen in logisch/symbolischen Repräsentationssprachen.
Die Klausureinsicht zur Wiederholungsklausur ist abgesagt.
Inhalt
Durch die Entwicklung der Informationstechnologie sind immer größere Datenmengen verfügbar. Diese enthalten oft implizites Wissen, das, wenn es bekannt wäre, große wirtschaftliche oder wissenschaftliche Bedeutung hätte. Data Mining ist ein Forschungsgebiet, das sich mit der Suche nach potentiell nützlichem Wissen in großen Datenmengen beschäftigt, und Maschinelles Lernverfahren gehören zu den Schlüsseltechnologien innerhalb dieses Gebiets.
Die Vorlesung bietet eine Einführung in das Gebiet des Maschinellen Lernens unter dem besonderen Aspekt des Data Minings. Es werden Verfahren aus verschiedenen Paradigmen des Maschinellen Lernens mit exemplarischen Anwendungen vorgestellt. Um das Wissen zu operationalisieren, werden in den Übungen praktische Erfahrungen mit Lernalgorithmen gesammelt.
- Organisatorisches
- Einführung (Grundbegriffe, Lernprobleme, Konzepte, Beispiele, Repräsentation)
- Regel-Lernen
- Konzept-Lernen und Versionsräume (Generalisierung und Spezialisierung, Strukturierte Hypothesenräume, Version Spaces)
- Lernen einzelner Regeln und Subgroup Discovery (Top-down Hill-Climbing, Beam Search, Coverage Space, Heuristiken, Predictive vs. Descriptive Data Mining)
- Lernen von Regel-Mengen (Covering Strategie, Pruning, Mehr-Klassenprobleme)
Link zu Overfitting Thriller
- Evaluierung und kosten-sensitives Lernen (Accuracy,X-Val,ROC-Kurven,Cost-Sensitive Learning)
- Instanzenbasiertes Lernen (kNN,IBL,NEAR,RISE)
- Entscheidungsbaum-Lernen (ID3, C4.5, etc.)
- Ensemble-Methoden (Bias/Variance, Bagging, Randomization, Boosting, Stacking, ECOCs)
- Pre-Processing (Feature Subset Selection, Diskretisierung, Sampling, Data Cleaning)
- Clustering (k-means, Hierarchical Clustering, Efficient Clustering)
- Lernen von Assoziationsregeln (Apriori)
Termine
Nach Planung findet die Veranstaltung im folgenden Rhythmus statt:
Tag | Zeit | Raum | Start | |
---|---|---|---|---|
Vorlesung | Donnerstag | 11:40 - 13:20 | S202/C205 | 18.10. |
Übung | Dienstag | 11:40 - 13:20 | S202/C205 |
23.10. |
Sprechstunde | Mittwoch | 12:00 - 13:30 | E203 |
07.11 |
Die Sprechstunde am 12.12 findet in Raum E202 statt.
Jedoch können sich, auch kurzfristig, Änderungen ergeben, die Sie aus der folgenden vorläufigen Planung entnehmen können:
Übungen
Betreuung: Markus Zopf, Sebastian Kauschke, Michael Rapp
In den Übungen erhalten Sie Aufgaben über den Vorlesungsstoff, oft alte Klausur-Aufgaben, die Sie selbst lösen sollen, und die dann in der folgenden Übungsstunde durchgesprochen werden. Die Übungsaufgaben finden Sie in Moodle.
Projekt
Ziel des Projektes ist es, praktische Erfahrungen im Maschinellem Lernen zu sammeln. Die Aufgabenblätter gibt es in Moodle zum download.
In Moodle werden auch die Abgaben zum Projekt hochgeladen. Bitte nutzen Sie auch das dortige Forum (oder das d120 Forum) um sich in Gruppen zu je 3 Personen zusammenzufinden.
Klausur
Die Klausur findet am 21.02.2019 von 10:00-12:00 Uhr statt. Die Bearbeitungszeit für die Klausur wird 90 Minuten betragen.
Erlaubte Unterlagen: Sie dürfen ein von Ihnen selbst doppelseitig handbeschriebenes DIN A4-Blatt zur Klausur mitbringen. Ausländische Studenten dürfen ein entsprechendes Wörterbuch mitbringen. Alle anderen Unterlagen, insbesondere Elektronische Hilfsmittel (Taschenrechner, Handy, elektronisches Wörterbuch, etc.) sind nicht erlaubt.
Alte Klausuren
- WS 03/04
- WS 04/05
- WS 05/06 (Musterlösung)
- WS 06/07
- WS 10/11 (mit Musterlösung)
- WS 14/15 (English version)
Forum
Das Diskussionsforum zur Lehrveranstaltung finden Sie hier.
Materialien
Literatur
Die folgenden Lehrbücher behandeln einen Großteil des Stoffes:
- Tom Mitchell, Machine Learning, McGraw Hill 1997.
- Ian H. Witten, Eibe Frank, Mark HallData Mining: Practical Machine Learning Tools and Techniques with Java Implementations, Morgan Kaufmann, 3nd edition, 2011.
- Johannes Fürnkranz, Dragan Gamberger, Nada Lavrac, Foundations of Rule Learning, Springer-Verlag, 2012.
- Peter Flach, Machine Learning: The Art and Science of Algorithms that Make Sense of Data, Cambridge University Press, 2012.
Als ergänzende Literatur empfehlen wir im Wesentlichen die folgenden Kapitel aus diesen Lehrbüchern:
- Einführung
- Mitchell, ch. 1
- Witten & Frank, ch. 1
- Fürnkranz, Gamberger & Lavrac, ch. 1
- Flach, ch. 1
- Regel-Lernen
- Mitchell, ch.3, ch. 10
- Witten & Frank, 3.3, 4.4, 6.2
- Fürnkranz, Gamberger & Lavrac, ch. 2,3,6 - 10
- Flach, ch.6.1-6.2
- Evaluation and Cost-Sensitive Learning
- Witten & Frank, 5.1-5.5, 5., 5.8
- Flach, ch.2, 12
- Instance-Based Learning
- Mitchell, 8.1, 8.2, 8.5, 8.6
- Witten & Frank, 3.8, 4.7, 6.4
- Flach, ch. 8.1-8.3
- Entscheidungsbaum-Lernen
- Mitchell, ch.3
- Witten & Frank, 3.2, 4.3, 6.1
- J. R. Quinlan. Induction of decision trees. Machine Learning, 1:81-106, 1986.
- Flach, ch. 5
- Ensemble Methods
- Witten & Frank, ch. 8
- Flach, ch. 11
- Boosting animiert
- Pre-Processing
- Witten & Frank, ch. 7.1-7.5
- Clustering und Association Rules
- Witten & Frank, 3.4, 4.5, 6.3
- Flach, ch. 6.3, 8.4, 8.5
- Bart Goethals. Survey on Frequent Pattern Mining. Manuscript, 2003.
Machine-Learning-Werkzeuge
Beispiel-Datensätze
- Weka stellt auch einige Datensätze bereit
- UCI Machine Learning Repository
Weiterführende Veranstaltungen
Diese Vorlesung stellt den möglichen Beginn einer möglichen Spezialisierung in den Bereichen Maschinelles Lernen, Data Science, oder Künstlichen Intelligenz dar. Mehr Informationen zu entsprechenden Lehrveranstaltungen an der TU Darmstadt finden Sie hier.