Maschinelles Lernen und Data Mining - WS 04/05
Last changed: $Date: 2005-03-18 11:05:23 $ (UTC)
Prof. Dr. J. Fürnkranz, Dr. G. Grieser
Die Veranstaltung im Vorlesungsverzeichnis 2004/2005.
Tag | Zeit | Raum | Start | |
---|---|---|---|---|
Vorlesung | Donnerstag | 09:50-11:30 | S202/C110 | 26.10. |
Übung | Dienstag | 09:50-11:30 | S202/C110 | 02.11. |
Ankündigungen
Der Termin für die Klausureinsicht ist Dienstag, 12. April 2005, 15-17 Uhr in S202/E315.
Die Notenliste hängt nun in E3 aus.
Klausur
- Termin:
- 14.02.2004, 09.00 - 12.00 Uhr
- Ort:
- S206/030
- Anmeldung:
- Senden Sie bitte ein Mail an Frau Ploch. Ausserdem sollten Sie die gewünschte Klausursprache (Deutsch oder Englisch) angeben.
- Erlaubte Unterlagen:
- Es sind alle schriflichen Unterlagen erlaubt.
Elektronische Hilfsmittel (Taschenrechner, Handy, etc.) sind dagegen nicht erlaubt. - Alte Klausuren:
Inhalt
Durch die Entwicklung der Informationstechnologie sind immer größere Datenmengen verfügbar. Diese enthalten oft implizites Wissen, das, wenn es bekannt wäre, große wirtschaftliche oder wissenschaftliche Bedeutung hätte. Data Mining ist ein Forschungsgebiet, das sich mit der Suche nach potentiell nützlichem Wissen in großen Datenmenge beschäftigt, und Maschinelles Lernverfahren gehören zu den Schlüsseltechnologien innerhalb dieses Gebiets.
Die Vorlesung bietet eine Einführung in das Gebiet des Maschinellen Lernens unter dem besonderen Aspekt das Data Minings. Es werden Verfahren aus verschiedenen Paradigmen des Maschinellen Lernens mit exemplarischen Anwendungen vorgestellt. Um das Wissen zu operationalisieren, werden in den Übungen praktische Erfahrungen mit Lernalgorithmen gesammelt.
- Einführung (Grundbegriffe, Lernprobleme, Konzepte, Beispiele, Repräsentation)
- Entscheidungsbaum-Lernen (ID3, C4.5, etc.)
- Hypothesenbewertungen (X-Validation)
- Regel-Lernen (Version Spaces, Covering Algorithms)
- Data Mining (Prozeßmodell)
- Pre-Processing (Feature Subset Selection, Diskretisierung, Sampling)
- Lernen von Assoziationsregeln (APRIORI)
- Ensemble-Methoden (Bagging, Boosting, Stacking)
- Reinforcement Learning (Q-learning, Game Playing)
- Bayessches Lernen (Naive Bayes)
- Instanzenbasierte Verfahren (kNN)
- Neuronale Netze
- Support Vector Machines
- Lerntheorie (Lernszenarios, prinzipielle Lernbarkeitsergebnisse, Induktive Inferenz, PAC-Lernen)
- Clustering (k-means, aggl. hier. Clustering)
Übungen
- Entscheidungsbäume
- Hypothesenbewertungen
- Version Spaces
- Rule Learning (dazu die Regelmengen für play=yes und play=no)
- Rule Learning 2
- Pre-Processing (Beispiel: Diskretisierung mit Chi-Merge)
- Ensemble Learning
- Reinforcement Learning
- Bayes'sches Lernen
- IBL und SVM (ohne Besprechung)
Projekt
Informationen zum Projekt sind nun auf einer eigenen Seite verfügbar.
Das Machine Learning Tool WEKA ist auf den Rechnern der RBG installiert. Zur Verwendung ist die Variable CLASSPATH um /usr/local/lib/java/weka-3-4/weka.jar zu ergänzen. WEKA benötigt Java 1.4, welches im Pool z.B. unter /opt/gnome/java/j2sdk1.4.2/bin/java zu finden ist. Zum Starten des Explorers eignen sich folgende Zeilen:
export CLASSPATH="/usr/local/lib/java/weka-3-4/weka.jar:$CLASSPATH" /opt/gnome/java/j2sdk1.4.2/bin/java weka.gui.explorer.Explorer
Die Experimenter GUI starten Sie mit:
export CLASSPATH="/usr/local/lib/java/weka-3-4/weka.jar:$CLASSPATH" /opt/gnome/java/j2sdk1.4.2/bin/java weka.gui.experiment.Experimenter
Materialien
Lehrbücher
- Tom Mitchell, Machine Learning, McGraw Hill 1997.
- Ian H. Witten, Eibe Frank, Data Mining: Practical Machine Learning Tools and Techniques with Java Implementations, Morgan Kaufmann 1999. Deutsche Übersetzung Hanser-Verlag 2001.
Papers
Während die Lehrbücher den Stoff im großen und ganzen behandeln, und in vielen Punkten auch noch tiefer gehen, werden in der Vorlesung zum Teil andere Schwerpunkte gesetzt. Als ergänzende Literatur empfehlen wir im wesentlichen die folgenden Arbeiten (bitte auf Updates achten):- J. R. Quinlan. Induction of decision trees. Machine Learning, 1:81-106, 1986.
- Johannes Fürnkranz and Peter Flach. ROC 'n' rule learning -- towards a better understanding of covering algorithms. Machine Learning, 58(1):39-77, 2005.
- Bart Goethals. Survey on Frequent Pattern Mining. Manuscript, 2003.
- Thomas G. Dietterich. Ensemble methods in machine learning. In J. Kittler and F. Roli (Ed.) First International Workshop on Multiple Classifier Systems, Lecture Notes in Computer Science (pp. 1-15). New York: Springer Verlag.
Data Mining Tutor
Machine-Learning-Werkzeuge
Beispiel-Datensätze
- Weka stellt auch eineige Datensätze bereit
- UCI Machine Learning Repository
Demos
- Boosting animiert
- Reinforcement Learning Repository mit vielen Demos zu diesem Thema.