Data Mining Cup 2011
LVA 20-00-0103-pr im Vorlesungsverzeichnis der TU Darmstadt, SS 11.
Das Studententeam der TU-Darmstadt hat sehr erfolgreich am diesjährigen Data Mining Cup teilgenommen und den 2., 6., 8. und 10. Platz belegt. Die Abschlussvorträge zu den erarbeiteten Lösungen werden am Dienstag, den 5.7.11 ab 15 Uhr in A213 vorgestellt und jeder Interessierte ist herzlich zu den Präsentationen eingeladen.
Vorbesprechung
Die Vorbesprechung findet am Dienstag, den 15.3.2011 um 16:00 Uhr in S202/E202 statt. Während des Semesters findet der Termin voraussichtlich mittwochs statt.
Inhalt und Ablauf
Im Zuge dieses Praktikums werden wir am Data Mining Cup teilnehmen. Der Data Mining Cup ist ein internationaler Wettbewerb für Studenten. Dabei muß eine festgelegte Data Mining Aufgabe gelöst werden. In den letzten Jahren wurden vorzugsweise reelle Daten aus dem Verkauf analysiert, so sollten u.a. Buchverkäufe, Gutscheineinlösungen, Auktionspreise und Zahlungsausfälle vorhergesagt werden. Die diesjährige Aufgabe wird am 15. April 2011 veröffentlicht. Die bis 31.5. eingesandten Lösungen werden gesammelt und von den Veranstaltern anhand einer Test-Menge, deren Ausgänge vorher unbekannt sind, evaluiert.
Aufgabe des Praktikums ist Ausarbeitung und Einreichung einer Lösung für den Data Mining Cup. Die Hauptarbeit wird dabei in den ersten Wochen des Sommersemesters anfallen, in denen Sie die Lösung erarbeiten müssen. Die einzelnen Lösungen sollen dann im Zuge des weiteren Verlaufs des Praktikums (noch vor Bekanntgabe der offiziellen Lösung) dokumentiert und im Rahmen von Vorträgen vorgestellt werden.
Das Praktikum beginnt schon Mitte März. Die Idee ist, daß Sie bis zum Beginn des Wettbewerbs Aufgaben aus den letzten Jahren bearbeiten um sich grundlegende Techniken anzueignen und Ihre Lösung dann beim ersten Treffen im SS vorstellen. Während der ersten Phase der Ausarbeitung der Lösung werden in etwa alle zwei Wochen Treffen zum Ideenaustausch stattfinden, in der heissen Phase des Praktikums (während der Laufzeit des Wettbewerbs) werden wir uns voraussichtlich öfters treffen. Am Ende werden die zwei besten Lösungen ermittelt und eingereicht.
Beurteilung
Die Lösungen können in Gruppenarbeit (2-3 Teilnehmer pro Gruppe) erstellt werden. Beurteilt wird Ihr Engagement für das Praktikum und die Qualität Ihres Lösungsweges (nicht unbedingt die Qualität der Lösung selbst, d.h. das Abschneiden im Wettbewerb ist nicht unmittelbar notenrelevant).
Wiki und Forum
Zu der Veranstaltung wird es einen wiki und ein Forum geben. Der wiki ist dazu gedacht Neuigkeiten zu veröffentlichen, sowie Termine bekannt zu geben. Außerdem wird es dort auch allgemeine Informationen geben. Im Forum sollten Fragen zu entsprechenden Problemen, die während des Prozesses auftreten, gestellt und vor allem auch beantwortet werden.
Der Link zum wiki ist: /students-wiki/bin/view/DmC/WebHome
Der Link zum Forum ist: /students-wiki/bin/view/DmCForum11. Das Forum kann auch direkt über das wiki erreicht werden (siehe Webs).
Literatur
Die folgenden Artikel könnten für eine erfolgreiche Projekt-Bewältigung hilfreich sein:
- Dorian Pyle, This Way Failure Lies, DB2 Magazine 9(1), 2004.
- Michael C. Mozer et al., Prediction and classification: Pitfalls for the unwary, 2000.
Tools
- Weka: Eins der beliebtesten Frameworks und APIs im Maschinellem Lernen, in Java geschrieben.
- RapidMiner: Framework ähnlich Weka aus Deutschland mit besserer GUI und weiteren Funktionen, Java.
- NTLK: Spezialisiert auf Natural Language Processing, stellt aber auch Algorithmen nach Stand der Technik für Python zur Verfügung
- SVMlight: Gute Implementierung von Support-Vektor-Maschinen, alternatives LibSVM Framework ist auch z.B. in Weka verfügbar.