Maschinelles Lernen: Symbolische Ansätze - WS 06/07
Prof. Dr. J. Fürnkranz, Dr. G. Grieser
Die Veranstaltung im Vorlesungsverzeichnis.
Tag | Zeit | Raum | Start | |
---|---|---|---|---|
Vorlesung | Donnerstag | 09:50-11:30 | S202/C110 | 19.10. |
Übung | Dienstag | 09:50-11:30 | S202/C110 | 24.10. |
Ankündigungen
Die Ergebnisse der Klausur im WS 07/08 hängen ab sofort am Brett neben Raum E 304 aus und sind außerdem über das WebReg-System einsehbar. Die Klausureinsicht findet am Freitag, den 7.3.08 von 10:00-11:00 Uhr in Raum E302 statt.
Klausur
Inhalt
Durch die Entwicklung der Informationstechnologie sind immer größere Datenmengen verfügbar. Diese enthalten oft implizites Wissen, das, wenn es bekannt wäre, große wirtschaftliche oder wissenschaftliche Bedeutung hätte. Data Mining ist ein Forschungsgebiet, das sich mit der Suche nach potentiell nützlichem Wissen in großen Datenmengen beschäftigt, und Maschinelles Lernverfahren gehören zu den Schlüsseltechnologien innerhalb dieses Gebiets.
Die Vorlesung bietet eine Einführung in das Gebiet des Maschinellen Lernens unter dem besonderen Aspekt des Data Minings. Es werden Verfahren aus verschiedenen Paradigmen des Maschinellen Lernens mit exemplarischen Anwendungen vorgestellt. Um das Wissen zu operationalisieren, werden in den Übungen praktische Erfahrungen mit Lernalgorithmen gesammelt.
- Organisatorisches
- Einführung (Grundbegriffe, Lernprobleme, Konzepte, Beispiele, Repräsentation)
- Regel-Lernen
- Lernen einzelner Regeln (Generalisierung und Spezialisierung, Strukturierte Hypothesenräume, Version Spaces)
- Lernen von Regel-Mengen (Covering Strategie, Evaluierungsmasse für Regeln, Pruning, Mehr-Klassenprobleme)
- Entscheidungsbaum-Lernen
- Entscheidungsbaum-Lernen (ID3, C4.5, etc.) (V1.1, Typos)
- Inkrementelles Lernen & Konzept-Drift (V1.1, Typos)
- Naive Bayes
- Instanzenbasiertes Lernen
- Evaluierung und kosten-sensitives Lernen (Accuracy,X-Val,ROC-Kurven,Cost-Sensitive Learning)
- Pre-Processing (Feature Subset Selection, Diskretisierung, Sampling)
- Ensemble-Methoden (Bagging, Boosting, Stacking)
- Clustering und Lernen von Assoziationsregeln
Übungen
In den Übungen erhalten Sie Aufgaben über den Vorlesungsstoff, oft alte Klausur-Aufgaben, die Sie selbst lösen sollen, und die dann in der folgenden Übungsstunde durchbesprochen werden.- 24. 10. 06: Klassifikationsprobleme (Musterlösung)
- 31. 10. 06: Hypothesenraum, Generalisierung (Musterlösung)
- 07. 11. 06: Version Spaces (Musterlösung)
- 14. 11. 06: Rule Learning (Musterlösung)
- 21. 11. 06: Rule Learning 2 (Musterlösung - Update)
- 28. 11. 06: Entscheidungsbäume (Musterlösung - Update)
- 05. 12. 06: Entscheidungsbäume 2 (Musterlösung - zweites Update)
- 12. 12. 06: Inkrementelles Lernen & Konzept-Drift (Musterlösung)
- 19. 12. 06: Naive Bayes (Musterlösung - Update)
- 16. 01. 07: Evaluierung (Musterlösung)
- 23. 01. 07: Pre-Processing (Musterlösung - Update)
- 02. 02. 06: Ensemble Learning (Musterlösung - Update)
- 09. 02. 06: Assoziationsregeln (Musterlösung)
Projekt
Zusätzlich erhalten Sie in der Mitte des Semesters eine praktische Aufgabe, die Sie mit Hilfe der Data Mining Software Weka bearbeiten sollen.
Ein erfolgreiche Bearbeitung der Aufgaben führt zu einer Notenverbesserung um eine Notenabstufung (0.3), allerdings nur bei bestandener Klausur.
Informationen zum Projekt finden Sie hier. Die Folien zum Projekt stehen nun hier zum Download zur Verfügung.
Hinweis: In der Aufgabe 3 und den folgenden sollen die Klassifizierer mit einer einfachen 10-fold Cross-Validation (1x10 CV) bewertet werden (siehe Forum).
Der Wettbewerb ist
abgeschlossen. Es
haben sich 36 Studenten in 22 Gruppen beteiligt und enorm viel Aufwand
und
Zeit investiert. Ganz vielen Dank an alle.
Wir haben die gelernten Modelle auf einem separaten Testset evaluiert
und so
die reale Genauigkeit abgeschätzt. Die
Gewinner sind:
1. Platz (97,9% Genauigkeit): Stefan Appel, Sandra
Ebert, Nina Sandholm,
Aleksander Velikov und Yanje Wu
2. Platz (97,7% Genauigkeit): Claus Brech, Simon
Kulessa, Patrick Sona und
Marc Weber
3. Platz (97,2% Genauigkeit): Paul Arndt
Ganz herzlichen Glückwunsch!
Forum
Das Diskussionsforum zur Lehrveranstaltung finden Sie hier.Materialien
Literatur
Die folgenden beiden Lehrbücher behandeln einen Großteil des Stoffes:- Tom Mitchell, Machine Learning, McGraw Hill 1997.
- Ian H. Witten, Eibe Frank, Data Mining: Practical Machine Learning Tools and Techniques with Java Implementations, Morgan Kaufmann, 2nd edition 2005. (Die erste Ausgabe deckt nur einen kleinen Teil ab).
- Einführung
- Mitchell, ch. 1
- Witten & Frank, ch. 1
- Rule Learning
- Mitchell, ch.3, ch. 10
- Witten & Frank, 3.3, 4.4, 6.2
- Johannes Fürnkranz and Peter Flach. ROC 'n' rule learning -- towards a better understanding of covering algorithms. Machine Learning, 58(1):39-77, 2005.
- Entscheidungsbaum-Lernen
- Mitchell, ch.3
- Witten & Frank, 3.2, 4.3, 6.1
- J. R. Quinlan. Induction of decision trees. Machine Learning, 1:81-106, 1986.
- Inkrementelles Lernen
- Utgoff, P.E. Incremental induction of decision trees. Machine Learning, 4, 161-186, 1989.
- Naive Bayes
- Mitchell, 6.1-6.9
- Witten & Frank, 4.2
- Instance-Based Learning
- Mitchell, 8.1, 8.2, 8.5, 8.6
- Witten & Frank, 3.8, 4.7, 6.4
- Evaluation and Cost-Sensitive Learning
- Witten & Frank, 5.1-5.5, 5.7
- Tom Fawcett: An Introduction to ROC Analysis, Pattern Recognition Letters 27(8): 861-874 (2006).
- Peter Flach: The many faces of ROC analysis in machine learning, Tutorial held at ICML-04.
- Charles Elkan: The Foundations of Cost-Sensitive Learning. In Proceedings of the 17th International Joint Conference on Artificial Intelligence (IJCAI-01), pp. 973-978.
- Association Rules
- Witten & Frank, 3.4, 4.5
- Bart Goethals. Survey on Frequent Pattern Mining. Manuscript, 2003.
- Ensemble Methods
- Thomas G. Dietterich. Ensemble methods in machine learning. In J. Kittler and F. Roli (Ed.) First International Workshop on Multiple Classifier Systems, Lecture Notes in Computer Science (pp. 1-15). New York: Springer Verlag.
Papers zu vielen Themen finden Sie oft auch mit CiteSeer, DER Suchmaschine für wissenschaftliche Texte der Informatik
Data Mining Tutor
Machine-Learning-Werkzeuge
Beispiel-Datensätze
- Weka stellt auch einige Datensätze bereit
- UCI Machine Learning Repository
Demos
- Boosting animiert
- Reinforcement Learning Repository mit vielen Demos zu diesem Thema.