Data Mining und Maschinelles Lernen - WS 17/18
LVA 20-00-0052-iv (vormals "Maschinelles Lernen: Symbolische Ansätze") - Prof. Dr. J. Fürnkranz
Diese Vorlesung bietet eine Einführung in die Themen maschinelles Lernen und Data Mining mit Schwerpunkt auf Lernen in logisch/symbolischen Repräsentationssprachen.
Die Klausureinsicht findet Freitag, 19.10.2018 von 12-12.30 Uhr in Raum A213 statt.
Inhalt
Durch die Entwicklung der Informationstechnologie sind immer größere Datenmengen verfügbar. Diese enthalten oft implizites Wissen, das, wenn es bekannt wäre, große wirtschaftliche oder wissenschaftliche Bedeutung hätte. Data Mining ist ein Forschungsgebiet, das sich mit der Suche nach potentiell nützlichem Wissen in großen Datenmengen beschäftigt, und Maschinelles Lernverfahren gehören zu den Schlüsseltechnologien innerhalb dieses Gebiets.
Die Vorlesung bietet eine Einführung in das Gebiet des Maschinellen Lernens unter dem besonderen Aspekt des Data Minings. Es werden Verfahren aus verschiedenen Paradigmen des Maschinellen Lernens mit exemplarischen Anwendungen vorgestellt. Um das Wissen zu operationalisieren, werden in den Übungen praktische Erfahrungen mit Lernalgorithmen gesammelt.
- Organisatorisches
- Einführung (Grundbegriffe, Lernprobleme, Konzepte, Beispiele, Repräsentation)
- Regel-Lernen
- Konzept-Lernen und Versionsräume (Generalisierung und Spezialisierung, Strukturierte Hypothesenräume, Version Spaces)
- Lernen einzelner Regeln und Subgroup Discovery (Top-down Hill-Climbing, Beam Search, Coverage Space, Heuristiken, Predictive vs. Descriptive Data Mining)
- Lernen von Regel-Mengen (Covering Strategie, Pruning, Mehr-Klassenprobleme)
Link zu Overfitting Thriller
- Evaluierung und kosten-sensitives Lernen (Accuracy,X-Val,ROC-Kurven,Cost-Sensitive Learning)
- Instanzenbasiertes Lernen (kNN,IBL,NEAR,RISE)
- Entscheidungsbaum-Lernen (ID3, C4.5, etc.)
- Ensemble-Methoden (Bias/Variance, Bagging, Randomization, Boosting, Stacking, ECOCs)
- Pre-Processing (Feature Subset Selection, Diskretisierung, Sampling, Data Cleaning)
- Clustering und Lernen von Assoziationsregeln (Apriori)
Termine
Nach Planung findet die Veranstaltung im folgenden Rhythmus statt:
Tag | Zeit | Raum | Start | |
---|---|---|---|---|
Vorlesung | Donnerstag | 11:40 - 13:20 | S202/C205 | 19.10. |
Übung | Dienstag | 11:40 - 13:20 | S202/C205 |
24.10. |
Sprechstunde | Mittwoch | 11:40 - 13:10 | A313 |
01.11 |
Jedoch können sich, auch kurzfristig, Änderungen ergeben, die Sie aus der folgenden vorläufigen Planung entnehmen können:
Übungen
Betreuung: Markus Zopf, Sebastian Kauschke
In den Übungen erhalten Sie Aufgaben über den Vorlesungsstoff, oft alte Klausur-Aufgaben, die Sie selbst lösen sollen, und die dann in der folgenden Übungsstunde durchbesprochen werden.
Übungsblatt | Besprechung vrsl. am | Lösungsvorschlag | |
---|---|---|---|
Organisation | Übung 00 - Organisatorisches | - | - |
Übung 01 | Übung 01 - Intro | 07.11.2017 | Übung 01 - Lösungsvorschlag |
Übung 02 | Übung 02 - Konzepte, Regeln und Hypothesen | 16.11.2017 | Übung 02 - Lösungsvorschlag |
Übung 03 | Übung 03 - Version Spaces | 28.11.2017 | Übung 03 - Lösungsvorschlag |
Übung 04 | Übung 04 - Rule Learning | 05.12.2017 | Übung 04 - Lösungsvorschlag |
Übung 05 | Übung 05 - Rule Learning 2 | 12.12.2017 | Übung 05 - Lösungsvorschlag |
Übung 06 | Übung 06 - Evaluation | 19.12.2017 | Übung 06 - Lösungsvorschlag |
Übung 07 | Übung 07 - IBL | 09.01.2018 | Übung 07 - Lösungsvorschlag |
Übung 08 | Übung 08 - IBL2 | 16.01.2018 | Übung 08 - Lösungsvorschlag |
Übung 09 | Übung 09 - Trees | 23.01.2018 | Übung 09 -Lösungsvorschlag |
Übung 10 | Übung 10 - Ensembles und Preprocessing | 30.01.2018 | Übung 10 - Lösungsvorschlag |
Übung 11 | Übung 11 - Trees 2 | 06.02.2018 | Übung 11 - Lösungsvorschlag |
Übung 12 | Übung 12 - Assoziationsregeln | 08.02.2018 | Übung 12 - Lösungsvorschlag |
Projekt
Ziel des Projektes ist es, praktische Erfahrungen im Maschinellem Lernen zu sammeln. Die Aufgabenblätter gibt es hier:
In Moodle werden die Abgaben zum Projekt hochgeladen. Bitte nutzen Sie auch das dortige Forum (oder das d120 Forum) um sich in Gruppen zu je 3 Personen zusammenzufinden.
Klausur
Die Klausur findet am 15.2. von 10-12h statt. Die Bearbeitungszeit für die Klausur wird 90 min betragen.
Raumaufteilung:
Nachname A - Sch -> Audimax
Nachname Se-Z -> S1|03/221
Erlaubte Unterlagen: Sie dürfen ein von Ihnen selbst doppelseitig handbeschriebenes DIN A4-Blatt zur Klausur mitbringen. Ausländische Studenten dürfen ein entsprechendes Wörterbuch mitbringen. Alle anderen Unterlagen, insbesondere Elektronische Hilfsmittel (Taschenrechner, Handy, elektronisches Wörterbuch, etc.) sind nicht erlaubt.
Alte Klausuren
Forum
Das Diskussionsforum zur Lehrveranstaltung finden Sie hier.
Materialien
Literatur
Die folgenden Lehrbücher behandeln einen Großteil des Stoffes:
- Tom Mitchell, Machine Learning, McGraw Hill 1997.
- Ian H. Witten, Eibe Frank, Mark HallData Mining: Practical Machine Learning Tools and Techniques with Java Implementations, Morgan Kaufmann, 3nd edition, 2011.
- Johannes Fürnkranz, Dragan Gamberger, Nada Lavrac, Foundations of Rule Learning, Springer-Verlag, 2012.
- Peter Flach, Machine Learning: The Art and Science of Algorithms that Make Sense of Data, Cambridge University Press, 2012.
Als ergänzende Literatur empfehlen wir im Wesentlichen die folgenden Kapitel aus diesen Lehrbüchern:
- Einführung
- Mitchell, ch. 1
- Witten & Frank, ch. 1
- Fürnkranz, Gamberger & Lavrac, ch. 1
- Flach, ch. 1
- Regel-Lernen
- Mitchell, ch.3, ch. 10
- Witten & Frank, 3.3, 4.4, 6.2
- Fürnkranz, Gamberger & Lavrac, ch. 2,3,6 - 10
- Flach, ch.6.1-6.2
- Evaluation and Cost-Sensitive Learning
- Witten & Frank, 5.1-5.5, 5., 5.8
- Flach, ch.2, 12
- Instance-Based Learning
- Mitchell, 8.1, 8.2, 8.5, 8.6
- Witten & Frank, 3.8, 4.7, 6.4
- Flach, ch. 8.1-8.3
- Entscheidungsbaum-Lernen
- Mitchell, ch.3
- Witten & Frank, 3.2, 4.3, 6.1
- J. R. Quinlan. Induction of decision trees. Machine Learning, 1:81-106, 1986.
- Flach, ch. 5
- Ensemble Methods
- Witten & Frank, ch. 8
- Flach, ch. 11
- Boosting animiert
- Pre-Processing
- Witten & Frank, ch. 7.1-7.5
- Clustering und Association Rules
- Witten & Frank, 3.4, 4.5, 6.3
- Flach, ch. 6.3, 8.4, 8.5
- Bart Goethals. Survey on Frequent Pattern Mining. Manuscript, 2003.
Machine-Learning-Werkzeuge
Beispiel-Datensätze
- Weka stellt auch einige Datensätze bereit
- UCI Machine Learning Repository
Weiterführende Veranstaltungen
Diese Vorlesung stellt den möglichen Beginn einer möglichen Spezialisierung in den Bereichen Maschinelles Lernen, Data Science, oder Künstlichen Intelligenz dar. Mehr Informationen zu entsprechenden Lehrveranstaltungen an der TU Darmstadt finden Sie hier.