Maschinelles Lernen: Symbolische Ansätze - WS 10/11
Die Veranstaltung im Vorlesungsverzeichnis.
| Tag | Zeit | Raum | Start |
---|---|---|---|---|
Vorlesung | Donnerstag | 08:55-10:35 | S202/C110 | 21.10. |
Übung | Dienstag | 09:50-11:30 | S202/C110 |
26.10. |
Die Noten der Klausur stehen nun fest. Diese sind in TUCaN eingetragen. Außerdem hängt eine Liste vor den Räumen des Fachgebiets mit den Personen, die nicht in TUCaN geführt werden. Hinweis: Da eine Auflistung der Punkte pro Aufgabe in TUCaN nicht möglich ist, wurde der Aushang aktualisiert. Hier finden nun ALLE Klausurteilnehmer eine Auflistung der Punkte pro Aufgabe.
Die Klausureinsicht findet am 29.04. von 11-12 Uhr in Raum S202/A313 statt.
Die Klausur findet am Mittwoch, 2. März 2011, ab 14:00 in Raum C205 statt. Erlaubte Unterlagen: Sie dürfen ein von Ihnen selbst doppelseitig handbeschriebenes Din A4-Blatt zur Klausur mitbringen. Ausländische Studenten dürfen ein entsprechendes Wörterbuch mitbringen. Alle anderen Unterlagen, insbesondere Elektronische Hilfsmittel (Taschenrechner, Handy, elektronisches Wörterbuch, etc.) sind nicht erlaubt.
Klausursprechstunde am Montag, 28.Februar 2011, von 12:00 bis 13:00 in Raum C110: In der Klausursprechstunde besteht die Möglichkeit letzte Fragen zum Vorlesungsstoff zu klären. Sammeln Sie bitte Ihre Fragen in dem Forum-Thread Klausursprechstunde, um ein schnelles Beantworten zu ermöglichen.
Inhalt
Durch die Entwicklung der Informationstechnologie sind immer größere Datenmengen verfügbar. Diese enthalten oft implizites Wissen, das, wenn es bekannt wäre, große wirtschaftliche oder wissenschaftliche Bedeutung hätte. Data Mining ist ein Forschungsgebiet, das sich mit der Suche nach potentiell nützlichem Wissen in großen Datenmengen beschäftigt, und Maschinelles Lernverfahren gehören zu den Schlüsseltechnologien innerhalb dieses Gebiets.
Die Vorlesung bietet eine Einführung in das Gebiet des Maschinellen Lernens unter dem besonderen Aspekt des Data Minings. Es werden Verfahren aus verschiedenen Paradigmen des Maschinellen Lernens mit exemplarischen Anwendungen vorgestellt. Um das Wissen zu operationalisieren, werden in den Übungen praktische Erfahrungen mit Lernalgorithmen gesammelt.
- Organisatorisches
- Einführung (Grundbegriffe, Lernprobleme, Konzepte, Beispiele, Repräsentation)
- Regel-Lernen
- Lernen einzelner Regeln (Generalisierung und Spezialisierung, Strukturierte Hypothesenräume, Version Spaces; last update 27.10.)
- Lernen von Regel-Mengen (Covering Strategie, Evaluierungsmaße für Regeln, Pruning, Mehr-Klassenprobleme; last update 11.11.)
- Evaluierung und kosten-sensitives Lernen (Accuracy,X-Val,ROC-Kurven,Cost-Sensitive Learning; last update 2.12.)
- Instanzenbasiertes Lernen (kNN,IBL,NEAR,RISE; last update 11.1.)
- Entscheidungsbaum-Lernen (ID3, C4.5, etc.; last update 12.12.)
- Ensemble-Methoden (Bias/Variance, Bagging, Randomization, Boosting, Stacking, ECOCs; last update 26.1.)
- Pre-Processing (Feature Subset Selection, Diskretisierung, Sampling, Data Cleaning; last update 3.2. (Korrektur Chi^2))
- Clustering und Lernen von Assoziationsregeln (Apriori; last update 10.2.)
Übungen
In den Übungen erhalten Sie Aufgaben über den Vorlesungsstoff, oft alte Klausur-Aufgaben, die Sie selbst lösen sollen, und die dann in der folgenden Übungsstunde durchbesprochen werden.
- Übung, 02.11.10: Klassifikationsprobleme (Musterlösung)
- Übung, 09.11.10: Hypothesenraum, Generalisierung (Musterlösung)
- Übung, 16.11.10: Version Spaces (Musterlösung)
- Übung, 23.11.10: Regellernen (Musterlösung)
- Übung, 30.11.10: Regellernen 2 (Musterlösung)
- Übung, 07.12.10: Evaluierung (Musterlösung)
- Übung, 16.12.10: Instanzbasierte Klassifizierung (Musterlösung)
- Übung, 11.01.11: Instanzbasierte Klassifizierung 2 (Musterlösung (updated))
- Übung, 18.01.11: Entscheidungsbäume (Musterlösung)
- Übung, 25.01.11: Entscheidungsbäume 2 (Musterlösung)
- Übung, 01.02.11: Ensemble-Methoden (Musterlösung)
- Übung, 08.02.11: Preprocessing (Musterlösung)
- Übung, 15.02.11: Assoziationsregeln (Musterlösung)
Klausur
Die Klausur findet am 02.03.2011 um 14:00 statt.
Alte Klausuren finden Sie hier.
Projekt
Ziel des Projektes ist es, praktische Erfahrungen im Maschinellem Lernen zu sammeln. Hierzu sollen mehrere Projektaufgaben mit Hilfe des Machine Learning Frameworks Weka gelöst werden. Das Projekt kann allein bzw. in einer Kleingruppe (maximal 3 Studenten, Name + Matrikelnr. müssen in der Abgabe ersichtlich sein) bearbeitet werden. Die Abgabe soll in einem üblichen Dokumentenformat (z.B. Beamer, PowerPoint o. Word) erfolgen, wobei es Ihnen freigestellt ist, entweder eine Ausarbeitung oder eine Präsentation zu erstellen. Die Folien sollten allerdings selbstredend, also auch ohne den dazugehörigen Vortrag verständlich sein. Senden Sie bitte ihre Abgabe an diese E-Mail-Adresse: ml-projekt@ke.tu-darmstadt.de.
Das Projekt besteht aus 9 Aufgaben, die bis zum 19.02.2011 bearbeitet werden sollen. Benutzen Sie für die Bearbeitung die hier bereitgestellte Sammlung an Klassifikations- und Regressionsdatensätzen. Für die erfolgreiche Bearbeitung gibt es einen Bonus von bis zu 10 Klausurpunkten, allerdings nur bei bestandener Klausur.
Forum
Das Diskussionsforum zur Lehrveranstaltung finden Sie hier.
Materialien
Literatur
Die folgenden beiden Lehrbücher behandeln einen Großteil des Stoffes:
- Tom Mitchell, Machine Learning, McGraw Hill 1997.
- Ian H. Witten, Eibe Frank, Data Mining: Practical Machine Learning Tools and Techniques with Java Implementations, Morgan Kaufmann, 2nd edition 2005. (Die zweite Ausgabe ist um einiges umfangreicher als die erste).
Während die Lehrbücher den Stoff im Großen und Ganzen behandeln, und in vielen Punkten auch noch tiefer gehen, werden in der Vorlesung zum Teil andere Schwerpunkte gesetzt. Als ergänzende Literatur empfehlen wir im Wesentlichen die folgenden Arbeiten (bitte auf Updates achten):
- Einführung
- Mitchell, ch. 1
- Witten & Frank, ch. 1
- Regel-Lernen
- Mitchell, ch.3, ch. 10
- Witten & Frank, 3.3, 4.4, 6.2
- Johannes Fürnkranz and Peter Flach. ROC 'n' rule learning -- towards a better understanding of covering algorithms. Machine Learning, 58(1):39-77, 2005.
- Entscheidungsbaum-Lernen
- Mitchell, ch.3
- Witten & Frank, 3.2, 4.3, 6.1
- J. R. Quinlan. Induction of decision trees. Machine Learning, 1:81-106, 1986.
- Inkrementelles Lernen
- Utgoff, P.E. Incremental induction of decision trees. Machine Learning, 4, 161-186, 1989.
- Naive Bayes
- Mitchell, 6.1-6.9
- Witten & Frank, 4.2
- Instance-Based Learning
- Mitchell, 8.1, 8.2, 8.5, 8.6
- Witten & Frank, 3.8, 4.7, 6.4
- Evaluation and Cost-Sensitive Learning
- Witten & Frank, 5.1-5.5, 5.7
- Tom Fawcett: An Introduction to ROC Analysis, Pattern Recognition Letters 27(8): 861-874 (2006).
- Peter Flach: The many faces of ROC analysis in machine learning, Tutorial held at ICML-04.
- Charles Elkan: The Foundations of Cost-Sensitive Learning. In Proceedings of the 17th International Joint Conference on Artificial Intelligence (IJCAI-01), pp. 973-978.
- Association Rules
- Witten & Frank, 3.4, 4.5
- Bart Goethals. Survey on Frequent Pattern Mining. Manuscript, 2003.
- Ensemble Methods
- Thomas G. Dietterich. Ensemble methods in machine learning. In J. Kittler and F. Roli (Ed.) First International Workshop on Multiple Classifier Systems, Lecture Notes in Computer Science (pp. 1-15). New York: Springer Verlag.
- Boosting animiert
Papers zu vielen Themen finden Sie oft auch mit CiteSeer, DER Suchmaschine für wissenschaftliche Texte der Informatik
Machine-Learning-Werkzeuge
- Weka
- QDA (Qualitative Data Analysis)
- Rapid Miner (formerly YALE - Yet Another Learning Environment)
Beispiel-Datensätze
- Weka stellt auch einige Datensätze bereit
- UCI Machine Learning Repository