Maschinelles Lernen und Data Mining - WS 05/06
Prof. Dr. J. Fürnkranz, Dr. G. Grieser
Die Veranstaltung im Vorlesungsverzeichnis 2004/2005.
Tag | Zeit | Raum | Start | |
---|---|---|---|---|
Vorlesung | Dienstag | 09:50-11:30 | S202/C110 | 25.10. |
Übung | Donnerstag | 09:50-11:30 | S202/C110 | 03.11. |
Ankündigungen
Die vorläufigen Klausur-Ergebnisse hängen ab
sofort im Flur E3 aus.
Die Klausureinsicht findet statt am Mittwoch,
dem 19.04.06 von 09:00
- 11:00 Uhr in Raum E 202.
Klausur
- Termin:
- 23.02.2006, 8:30 -
11:00 S206/030
- Anmeldung:
- falls Sie sich nicht beim Zentralen Prüfungssekretariat Informatik anmelden mußten, melden Sie sich bitte hier an.
- Erlaubte Unterlagen:
- Es sind alle schriflichen Unterlagen erlaubt.
Elektronische Hilfsmittel (Taschenrechner, Handy, elektronisches Wörterbuch, etc.) sind dagegen nicht erlaubt. - Alte Klausuren:
Inhalt
Durch die Entwicklung der Informationstechnologie sind immer größere Datenmengen verfügbar. Diese enthalten oft implizites Wissen, das, wenn es bekannt wäre, große wirtschaftliche oder wissenschaftliche Bedeutung hätte. Data Mining ist ein Forschungsgebiet, das sich mit der Suche nach potentiell nützlichem Wissen in großen Datenmengen beschäftigt, und Maschinelles Lernverfahren gehören zu den Schlüsseltechnologien innerhalb dieses Gebiets.
Die Vorlesung bietet eine Einführung in das Gebiet des Maschinellen Lernens unter dem besonderen Aspekt des Data Minings. Es werden Verfahren aus verschiedenen Paradigmen des Maschinellen Lernens mit exemplarischen Anwendungen vorgestellt. Um das Wissen zu operationalisieren, werden in den Übungen praktische Erfahrungen mit Lernalgorithmen gesammelt.
Die Vorlesung wird ab diesem Semester etwas andere Schwerpunkte setzen als die Vorlesung Einführung in Maschinelles Lernen und Data Mining früherer Semester (WS 04/05), der Inhalt ist aber zu großen Teilen identisch.
- Organisatorisches
- Einführung (Grundbegriffe, Lernprobleme, Konzepte, Beispiele, Repräsentation)
- Regel-Lernen
- Lernen einzelner Regeln (Generalisierung und Spezialisierung, Strukturierte Hypothesenräume, Version Spaces), V2.1, 15.11. 14.30h
- Lernen von Regel-Mengen (Covering Strategie, Evaluierungsmasse für Regeln, Pruning, Mehr-Klassenprobleme), V1.1, 7.2. 18.00h
- Entscheidungsbaum-Lernen
- Entscheidungsbaum-Lernen (ID3, C4.5, etc.)
- Inkrementelles Lernen & Konzept-Drift
- Naive Bayes + Instanzenbasiertes Lernen
- Evaluierung und kosten-sensitives Lernen (Accuracy,X-Val,ROC-Kurven,Cost-Sensitive Learning) [V2.0, 18.1., 0.30h, 2 new slides]
- Pre-Processing (Feature Subset Selection, Diskretisierung, Sampling)
- Ensemble-Methoden (Bagging, Boosting, Stacking)
- Lernen von Assoziationsregeln (APRIORI), V1.1, 7.2., 18h
- Clustering und Reinforcement Learning
Übungen
- 10. 11. 05: Hypothesenraum, Generalisierung
- 17. 11. 05: Version Spaces
- 24. 11. 05: Rule Learning
- 01. 12. 05: Rule Learning 2
- 08. 12. 05: Entscheidungsbäume
- 20. 12. 05: Inkrementelles Lernen und Konzeptdrift
- 12. 01. 06: Naive Bayes + IBL
- 19. 01. 06: Evaluierung
- 26. 01. 06: Pre-Processing
- 02. 02. 06: Ensemble Learning
- 09. 02. 06: Assoziationsregeln
Projekt
Informationen zum Projekt finden Sie hier.
Forum
Das Diskussionsforum zur Lehrveranstaltung finden Sie hier.Materialien
Literatur
Die folgenden beiden Lehrbücher behandeln einen Großteil des Stoffes:- Tom Mitchell, Machine Learning, McGraw Hill 1997.
- Ian H. Witten, Eibe Frank, Data Mining: Practical Machine Learning Tools and Techniques with Java Implementations, Morgan Kaufmann, 2nd edition 2005. (Die erste Ausgabe deckt nur einen kleinen Teil ab).
- Einführung
- Mitchell, ch. 1
- Witten & Frank, ch. 1
- Rule Learning
- Mitchell, ch.3, ch. 10
- Witten & Frank, 3.3, 4.4, 6.2
- Johannes Fürnkranz and Peter Flach. ROC 'n' rule learning -- towards a better understanding of covering algorithms. Machine Learning, 58(1):39-77, 2005.
- Entscheidungsbaum-Lernen
- Mitchell, ch.3
- Witten & Frank, 3.2, 4.3, 6.1
- J. R. Quinlan. Induction of decision trees. Machine Learning, 1:81-106, 1986.
- Inkrementelles Lernen
- Utgoff, P.E. Incremental induction of decision trees. Machine Learning, 4, 161-186, 1989.
- Naive Bayes
- Mitchell, 6.1-6.9
- Witten & Frank, 4.2
- Instance-Based Learning
- Mitchell, 8.1, 8.2, 8.5, 8.6
- Witten & Frank, 3.8, 4.7, 6.4
- Evaluation and Cost-Sensitive Learning
- Witten & Frank, 5.1-5.5, 5.7
- Peter Flach: The many faces of ROC analysis in machine learning, Tutorial held at ICML-04.
- Foster Provost and Tom Fawcett (2001). Robust classification for imprecise environments. Machine Learning, 42, 203-231.
- David J. Hand, Robert J. Till: A Simple Generalisation of the Area Under the ROC Curve for Multiple Class Classification Problems. Machine Learning 45(2): 171-186 (2001)
- Charles Elkan: The Foundations of Cost-Sensitive Learning. In Proceedings of the 17th International Joint Conference on Artificial Intelligence (IJCAI-01), pp. 973-978.
- Association Rules
- Witten & Frank, 3.4, 4.5
- Bart Goethals. Survey on Frequent Pattern Mining. Manuscript, 2003.
- Ensemble Methods
- Thomas G. Dietterich. Ensemble methods in machine learning. In J. Kittler and F. Roli (Ed.) First International Workshop on Multiple Classifier Systems, Lecture Notes in Computer Science (pp. 1-15). New York: Springer Verlag.
Papers zu vielen Themen finden Sie oft auch mit CiteSeer, DER Suchmaschine für wissenschaftliche Texte der Informatik
Data Mining Tutor
Machine-Learning-Werkzeuge
Beispiel-Datensätze
- Weka stellt auch einige Datensätze bereit
- UCI Machine Learning Repository
Demos
- Boosting animiert
- Reinforcement Learning Repository mit vielen Demos zu diesem Thema.