Maschinelles Lernen: Symbolische Ansätze - WS 08/09
Die Veranstaltung im Vorlesungsverzeichnis.
Tag | Zeit | Raum | Start | |
---|---|---|---|---|
Vorlesung | Donnerstag | 09:50-11:30 | S202/C110 | 16.10. |
Übung | Dienstag | 09:50-11:30 | S202/C110 | 21.10. |
Ankündigungen
Die Ergebnisse der Klausur hängen nun an der KE-Pinwand aus.
Die Klausureinsicht findet am Di, 10.3.09 von 10 - 12 Uhr in Raum E302 statt.
Klausur
- Erlaubte Unterlagen:
- Sie dürfen ein von Ihnen selbst doppelseitig handbeschriebenes Din A4-Blatt zur Klausur mitbringen. Alle anderen Unterlagen, insbesondere Elektronische Hilfsmittel (Taschenrechner, Handy, elektronisches Wörterbuch, etc.) sind nicht erlaubt.
- Alte Klausuren:
Inhalt
Durch die Entwicklung der Informationstechnologie sind immer größere Datenmengen verfügbar. Diese enthalten oft implizites Wissen, das, wenn es bekannt wäre, große wirtschaftliche oder wissenschaftliche Bedeutung hätte. Data Mining ist ein Forschungsgebiet, das sich mit der Suche nach potentiell nützlichem Wissen in großen Datenmengen beschäftigt, und Maschinelles Lernverfahren gehören zu den Schlüsseltechnologien innerhalb dieses Gebiets.
Die Vorlesung bietet eine Einführung in das Gebiet des Maschinellen Lernens unter dem besonderen Aspekt des Data Minings. Es werden Verfahren aus verschiedenen Paradigmen des Maschinellen Lernens mit exemplarischen Anwendungen vorgestellt. Um das Wissen zu operationalisieren, werden in den Übungen praktische Erfahrungen mit Lernalgorithmen gesammelt.
- Organisatorisches
- Einführung (Grundbegriffe, Lernprobleme, Konzepte, Beispiele, Repräsentation)
- Regel-Lernen
- Lernen einzelner Regeln (Generalisierung und Spezialisierung, Strukturierte Hypothesenräume, Version Spaces)
- Lernen von Regel-Mengen (Covering Strategie, Evaluierungsmaße für Regeln, Pruning, Mehr-Klassenprobleme) (V1.1, 13.11.; ein paar neue Folien)
- Evaluierung und kosten-sensitives Lernen (Accuracy,X-Val,ROC-Kurven,Cost-Sensitive Learning)
- Instanzenbasiertes Lernen (Neue Folien)
- Entscheidungsbaum-Lernen (neue Folien)
- Entscheidungsbaum-Lernen (ID3, C4.5, etc.) (V1.1, 14.01.; neue Folie zu C4.5 Pruning)
- Ensemble-Methoden (Bagging, Boosting, Stacking)
- Clustering und Lernen von Assoziationsregeln
- Pre-Processing (Feature Subset Selection, Diskretisierung, Sampling)
Übungen
In den Übungen erhalten Sie Aufgaben über den Vorlesungsstoff, oft alte Klausur-Aufgaben, die Sie selbst lösen sollen, und die dann in der folgenden Übungsstunde durchbesprochen werden.
- Übung, 28. 10. 08: Klassifikationsprobleme (Musterlösung)
- Übung, 04. 11. 08: Hypothesenraum, Generalisierung (Musterlösung)
- Übung, 11. 11. 08: Version Spaces (Musterlösung)
- Übung, 18. 11. 08: Regellernen (Musterlösung)
- Übung, 25. 11. 08: Regellernen 2 (Musterlösung)
- Übung, 04. 12. 08: Evaluation (Musterlösung)
- Übung, 16. 12. 08: Evaluation 2 (Musterlösung)
- Übung, 13. 01. 09: Bäume (Musterlösung - Update 2)
- Übung, 20. 01. 09: Regressionsbäume (Update) (Musterlösung - Update)
- Übung, 27. 01. 09: Ensemble-Methoden (Musterlösung - Update 2)
- Übung, 03. 02. 09: Assoziationsregeln (Musterlösung)
- Übung, 12. 02. 09: Pre-Processing (Musterlösung)
Projekt
Das Projekt wird dieses Mal in einzelne Aufgaben aufgeteilt. Durch eine erfolgreiche Bearbeitung der Aufgaben bekommt man Klausurpunkte angerechnet, sofern die Klausur bestanden ist. Die genaue Aufteilung der Punkte wird im Laufe des Projektes bekannt gegeben. Maximal kann man sich nun um eine Note (3 Notenstufen) verbessern. Gegebenenfalls orientiert sich die Maximalpunktzahl pro Aufgabe an dem Umfang der Aufgabe.
Ablauf
Die Projektaufgaben werden immer Dienstags ausgegeben, sofern es zu der aktuellen Vorlesung eine Projektaufgabe gibt. Diese soll dann in Gruppen von bis zu 3 Personen bis zum nächsten Montag bearbeitet werden. Die Aufgaben sollen als Präsentation eingereicht werden, da jede Gruppe im Laufe der Veranstaltung ihre Lösung mit Hilfe des Beamers präsentieren sollte. Die Aufgaben sollten bis spätestens Montag Abend per eMail unter dieser Mailadresse
eingereicht werden. Es sollte auf den abgegebenen Lösungen erkenntlich sein, welche Personen an dieser Abgabe beteiligt waren.
Die Aufgaben sollen mit Hilfe der Data Mining Software Weka bearbeitet werden.
Mailingliste
Auf die Mailingliste, über die neue Übungen und Projektaufgaben angekündigt werden, kann man sich hier eintragen.
Aufgaben
- 25.11.08: Aufgabe 1
- 04.12.08: Aufgabe 2 (benötigte Datensätze)
- 16.12.08: Aufgabe 3
- 13.01.09: Aufgabe 4 (benötigte Datensätze)
- 20.01.09: Aufgabe 5 (benötigte Datensätze)
- 27.01.09: Aufgabe 6 (benötigte Datensätze)
- 03.02.09: Aufgabe 7 (benötigter Datensatz)
- 12.02.09: Aufgabe 8 (benötigte Datensätze)
Forum
Das Diskussionsforum zur Lehrveranstaltung finden Sie hier.
Materialien
Literatur
Die folgenden beiden Lehrbücher behandeln einen Großteil des Stoffes:
- Tom Mitchell, Machine Learning, McGraw Hill 1997.
- Ian H. Witten, Eibe Frank, Data Mining: Practical Machine Learning Tools and Techniques with Java Implementations, Morgan Kaufmann, 2nd edition 2005. (Die zweite Ausgabe ist um einiges umfangreicher als die erste).
Während die Lehrbücher den Stoff im Großen und Ganzen behandeln, und in vielen Punkten auch noch tiefer gehen, werden in der Vorlesung zum Teil andere Schwerpunkte gesetzt. Als ergänzende Literatur empfehlen wir im Wesentlichen die folgenden Arbeiten (bitte auf Updates achten):
- Einführung
- Mitchell, ch. 1
- Witten & Frank, ch. 1
- Regel-Lernen
- Mitchell, ch.3, ch. 10
- Witten & Frank, 3.3, 4.4, 6.2
- Johannes Fürnkranz and Peter Flach. ROC 'n' rule learning -- towards a better understanding of covering algorithms. Machine Learning, 58(1):39-77, 2005.
- Entscheidungsbaum-Lernen
- Mitchell, ch.3
- Witten & Frank, 3.2, 4.3, 6.1
- J. R. Quinlan. Induction of decision trees. Machine Learning, 1:81-106, 1986.
- Inkrementelles Lernen
- Utgoff, P.E. Incremental induction of decision trees. Machine Learning, 4, 161-186, 1989.
- Naive Bayes
- Mitchell, 6.1-6.9
- Witten & Frank, 4.2
- Instance-Based Learning
- Mitchell, 8.1, 8.2, 8.5, 8.6
- Witten & Frank, 3.8, 4.7, 6.4
- Evaluation and Cost-Sensitive Learning
- Witten & Frank, 5.1-5.5, 5.7
- Tom Fawcett: An Introduction to ROC Analysis, Pattern Recognition Letters 27(8): 861-874 (2006).
- Peter Flach: The many faces of ROC analysis in machine learning, Tutorial held at ICML-04.
- Charles Elkan: The Foundations of Cost-Sensitive Learning. In Proceedings of the 17th International Joint Conference on Artificial Intelligence (IJCAI-01), pp. 973-978.
- Association Rules
- Witten & Frank, 3.4, 4.5
- Bart Goethals. Survey on Frequent Pattern Mining. Manuscript, 2003.
- Ensemble Methods
- Thomas G. Dietterich. Ensemble methods in machine learning. In J. Kittler and F. Roli (Ed.) First International Workshop on Multiple Classifier Systems, Lecture Notes in Computer Science (pp. 1-15). New York: Springer Verlag.
- Boosting animiert
Papers zu vielen Themen finden Sie oft auch mit CiteSeer, DER Suchmaschine für wissenschaftliche Texte der Informatik
Machine-Learning-Werkzeuge
- Weka
- QDA (Qualitative Data Analysis)
- Rapid Miner (formerly YALE - Yet Another Learning Environment)
Beispiel-Datensätze
- Weka stellt auch einige Datensätze bereit
- UCI Machine Learning Repository