Data Mining und Maschinelles Lernen - WS 15/16
LVA 20-00-0052-iv - Prof. Dr. J. Fürnkranz
Die Klausurergebnisse hängen an der Pinnwand neben Raum D205 aus und wurden in Tucan eingetragen (Freischaltung erfolgt über das Studienbüro).
Einsicht: Die Einsicht findet am Dienstag, den 10.05.2016 um 11:15-12:15 in E302 statt.
Inhalt
Durch die Entwicklung der Informationstechnologie sind immer größere Datenmengen verfügbar. Diese enthalten oft implizites Wissen, das, wenn es bekannt wäre, große wirtschaftliche oder wissenschaftliche Bedeutung hätte. Data Mining ist ein Forschungsgebiet, das sich mit der Suche nach potentiell nützlichem Wissen in großen Datenmengen beschäftigt, und Maschinelles Lernverfahren gehören zu den Schlüsseltechnologien innerhalb dieses Gebiets.
Die Vorlesung bietet eine Einführung in das Gebiet des Maschinellen Lernens unter dem besonderen Aspekt des Data Minings. Es werden Verfahren aus verschiedenen Paradigmen des Maschinellen Lernens mit exemplarischen Anwendungen vorgestellt. Um das Wissen zu operationalisieren, werden in den Übungen praktische Erfahrungen mit Lernalgorithmen gesammelt.
- Organisatorisches
- Einführung (Grundbegriffe, Lernprobleme, Konzepte, Beispiele, Repräsentation)
- Regel-Lernen
- Konzept-Lernen und Versionsräume (Generalisierung und Spezialisierung, Strukturierte Hypothesenräume, Version Spaces)
- Lernen einzelner Regeln und Subgroup Discovery (Top-down Hill-Climbing, Beam Search, Coverage Space, Heuristiken, Predictive vs. Descriptive Data Mining)
- Lernen von Regel-Mengen (Covering Strategie, Pruning, Mehr-Klassenprobleme)
- Evaluierung und kosten-sensitives Lernen (Accuracy,X-Val,ROC-Kurven,Cost-Sensitive Learning)
- Instanzenbasiertes Lernen (kNN,IBL,NEAR,RISE)
- Entscheidungsbaum-Lernen (ID3, C4.5, etc.)
- Ensemble-Methoden (Bias/Variance, Bagging, Randomization, Boosting, Stacking, ECOCs)
- Pre-Processing (Feature Subset Selection, Diskretisierung, Sampling, Data Cleaning)
- Clustering und Lernen von Assoziationsregeln (Apriori)
Termine
Allgemein findet die Veranstaltung im folgenden Rhythmus statt:
|
Tag |
Zeit |
Raum |
Start |
---|---|---|---|---|
Vorlesung | Mittwoch |
18:05 - 19:45 |
S202/C205 |
14.10. |
Übung | Dienstag |
09:50 - 11:30 |
S202/C205 |
20.10. |
Jedoch können sich, auch kurzfristig, Änderungen ergeben, die Sie aus der folgenden vorläufigen Planung entnehmen können:
Übungen
Betreuung: Eneldo Loza Mencía
In den Übungen erhalten Sie Aufgaben über den Vorlesungsstoff, oft alte Klausur-Aufgaben, die Sie selbst lösen sollen, und die dann in der folgenden Übungsstunde durchbesprochen werden.
- Übung 0: Organisatorisches (siehe Vorlesung)
- Übung 1: Klassifikation, Lösungsvorschlag
- Übung 2: Einzelne Regeln, Lösungsvorschlag
- Übung 3: Version Spaces, Lösungsvorschlag
- Übung 4: Regelmengen, Lösungsvorschlag
- Übung 5: Heuristiken, Lösungsvorschlag
- Übung 6: Instanz-basiertes Lernen I, Lösungsvorschlag
- Übung 7: Evaluation, Lösungsvorschlag
- Übung 8: Instanz-basiertes Lernen II, Lösungsvorschlag
- Übung 9: Entscheidungsbäume I, Lösungsvorschlag
- Übung 10: Entscheidungsbäume II, Lösungsvorschlag
- Übung 11: Ensembles, Lösungsvorschlag
- Übung 12: Preprocessing, Lösungsvorschlag
- Übung 13: Assoziationsregeln, Lösungsvorschlag
Klausur
Die Klausur findet am 16.2.2016, in L402/1 (Medienzentrum Lichtwiese) um 9:00 Uhr statt und ist für 90 Min. angesetzt.
Erlaubte Unterlagen: Sie dürfen ein von Ihnen selbst doppelseitig handbeschriebenes DIN A4-Blatt zur Klausur mitbringen. Ausländische Studenten dürfen ein entsprechendes Wörterbuch mitbringen. Alle anderen Unterlagen, insbesondere Elektronische Hilfsmittel (Taschenrechner, Handy, elektronisches Wörterbuch, etc.) sind nicht erlaubt.
An English translation of the exam can be prepared if you ask for it in the week before the exam.
Projekt
Ziel des Projektes ist es, praktische Erfahrungen im Maschinellem Lernen zu sammeln. Hierzu sollen mehrere Projektaufgaben mit Hilfe des Machine-Learning-Frameworks Weka gelöst werden. Des Weiteren folgt im späterem Verlauf eine Implementierungsaufgabe. Das Projekt kann allein bzw. in einer Kleingruppe (maximal 3 Studenten) bearbeitet werden. Die Abgabe soll in einem üblichen Präsentationsformat (z.B. PDF-Folien) erfolgen.Die Anmeldung erfolgt unter /webmining-upload/mldm15. Weitere Hinweise zur Anmeldung siehe unten.
Für einen Klausurbonus ist es nicht zwingend nötig, alle Aufgaben zu bearbeiten. Bei Teilabgaben kann noch ein entsprechender Teilbonus erreicht werden. Das Implementationsprojekt umfasst etwa 1/3 der zu erreichenden Punkte.
Dokumente:
- Hinweise zur Anmeldung und zum Upload-System
- Aufgabenstellung
- benötigte Datensätze, Datensatz für Competition
- Aufgabenstellung und Hinweise Implementationsaufgabe
- Framework für Implementation
Stichtage:
- Anmeldung: 6.12.
- Abgabe 1-3: 13.12.
- Abgabe 4-6: 17.01.
- Abgabe 7, 8, 9, Implementation: 7.02.
Forum
Das Diskussionsforum zur Lehrveranstaltung finden Sie hier.
Materialien
Literatur
Die folgenden Lehrbücher behandeln einen Großteil des Stoffes:
- Tom Mitchell, Machine Learning, McGraw Hill 1997.
- Ian H. Witten, Eibe Frank, Mark HallData Mining: Practical Machine Learning Tools and Techniques with Java Implementations, Morgan Kaufmann, 3nd edition, 2011.
- Johannes Fürnkranz, Dragan Gamberger, Nada Lavrac, Foundations of Rule Learning, Springer-Verlag, 2012.
- Peter Flach, Machine Learning: The Art and Science of Algorithms that Make Sense of Data, Cambridge University Press, 2012.
Als ergänzende Literatur empfehlen wir im Wesentlichen die folgenden Kapitel aus diesen Lehrbüchern:
- Einführung
- Mitchell, ch. 1
- Witten & Frank, ch. 1
- Fürnkranz, Gamberger & Lavrac, ch. 1
- Flach, ch. 1
- Regel-Lernen
- Mitchell, ch.3, ch. 10
- Witten & Frank, 3.3, 4.4, 6.2
- Fürnkranz, Gamberger & Lavrac, ch. 2,3,6 - 10
- Flach, ch.6.1-6.2
- Evaluation and Cost-Sensitive Learning
- Witten & Frank, 5.1-5.5, 5., 5.8
- Flach, ch.2, 12
- Instance-Based Learning
- Mitchell, 8.1, 8.2, 8.5, 8.6
- Witten & Frank, 3.8, 4.7, 6.4
- Flach, ch. 8.1-8.3
- Entscheidungsbaum-Lernen
- Mitchell, ch.3
- Witten & Frank, 3.2, 4.3, 6.1
- J. R. Quinlan. Induction of decision trees. Machine Learning, 1:81-106, 1986.
- Flach, ch. 5
- Ensemble Methods
- Witten & Frank, ch. 8
- Flach, ch. 11
- Boosting animiert
- Pre-Processing
- Witten & Frank, ch. 7.1-7.5
- Clustering und Association Rules
- Witten & Frank, 3.4, 4.5, 6.3
- Flach, ch. 6.3, 8.4, 8.5
- Bart Goethals. Survey on Frequent Pattern Mining. Manuscript, 2003.
Machine-Learning-Werkzeuge
Beispiel-Datensätze
- Weka stellt auch einige Datensätze bereit
- UCI Machine Learning Repository