Data Mining Cup 2014
News
ACHTUNG! Praktikum fängt bereits im Wintersemester an:
Anmeldefrist für das Praktikum ist am 17. Februar 2014 und Vorbesprechung ist am Donnerstag, den 19. Februar 2014 um 18:05 Uhr in Raum E202.
Anmeldung
Es ist eine verbindliche Anmeldung per Mail bis zum 17.02.2014 nötig, da auf Grund der Wettbewerbsmodalitäten ein Beginn bereits im Wintersemester erforderlich ist. Dies ist natürlich kein Ersatz für eine TUCaN Anmeldung.
Vorbesprechung
Die Vorbesprechung findet am Mittwoch, den 19.02.2014 um 18:05 Uhr statt in E202. Bitte beachten Sie, dass eine Teilnahme an diesem Termin zwingend notwendig ist.
Inhalt und Ablauf
Im Zuge dieses Praktikums werden wir am Data Mining Cup teilnehmen. Der Data Mining Cup ist ein internationaler Wettbewerb für Studenten. Dabei muß eine festgelegte Data Mining Aufgabe gelöst werden. In den letzten Jahren wurden vorzugsweise reelle Daten aus dem Verkauf analysiert, so sollten u.a. Buchverkäufe, Gutscheineinlösungen, Auktionspreise und Zahlungsausfälle vorhergesagt werden. Die diesjährige Aufgabe wird am 2. April 2014 veröffentlicht. Die bis 14.05.2014 eingesandten Lösungen werden gesammelt und von den Veranstaltern anhand einer Test-Menge, deren Ausgänge vorher unbekannt sind, evaluiert.
Aufgabe des Praktikums ist Ausarbeitung und Einreichung einer Lösung für den Data Mining Cup. Die Hauptarbeit wird dabei in den ersten sechs Wochen des Sommersemesters anfallen, in denen Sie in Teams von bis zu drei Personen die Lösung erarbeiten müssen. Die einzelnen Lösungen sollen dann im Zuge des weiteren Verlaufs des Praktikums (noch vor Bekanntgabe der offiziellen Lösung) dokumentiert und im Rahmen von Vorträgen vorgestellt werden.
Das Praktikum beginnt schon Ende Februar März. Die Idee ist, daß Sie bis zum Beginn des Wettbewerbs Aufgaben aus den letzten Jahren bearbeiten um sich grundlegende Techniken anzueignen und Ihre Lösung dann beim ersten Treffen im SS vorstellen. Während der ersten Phase der Ausarbeitung der Lösung werden in etwa alle zwei Wochen Treffen zum Ideenaustausch stattfinden, in der heissen Phase des Praktikums (während der Laufzeit des Wettbewerbs) werden wir uns voraussichtlich öfters treffen. Am Ende werden die zwei besten Lösungen ermittelt und eingereicht.
Vorläufige Planung
Beurteilung
Die Lösungen können in Gruppenarbeit (2-3 Teilnehmer pro Gruppe) erstellt werden. Beurteilt wird Ihr Engagement für das Praktikum und die Qualität Ihres Lösungsweges (nicht unbedingt die Qualität der Lösung selbst, d.h. das Abschneiden im Wettbewerb ist nicht unmittelbar notenrelevant).
Wiki und Forum
Zu der Veranstaltung wird es einen Wiki und ein Forum geben. Das Wiki ist dazu gedacht Neuigkeiten zu veröffentlichen, sowie Termine bekannt zu geben. Außerdem wird es dort auch allgemeine Informationen geben. Im Forum sollten Fragen zu entsprechenden Problemen, die während des Prozesses auftreten, gestellt und vor allem auch beantwortet werden. Die Links werden noch bekannt gegeben
Literatur
Die folgenden Artikel könnten für eine erfolgreiche Projekt-Bewältigung hilfreich sein:
- Alex Berson et al., An Overview of Data Mining Techniques, Building Data Mining Applications for CRM, 1999
- Dorian Pyle, This Way Failure Lies, DB2 Magazine 9(1), 2004.
- Michael C. Mozer et al., Prediction and classification: Pitfalls for the unwary, 2000.
- Pedro Domingos, A Few Useful Things to Know about Machine Learning. Communications of the ACM, 55 (10), 78-87, 2012.
- The Do's and Don'ts of Data Mining, KDD Nuggets, 2014.
Tools
- Weka: Eins der beliebtesten Frameworks und APIs im Maschinellem Lernen, in Java geschrieben.
- RapidMiner: Framework ähnlich Weka aus Deutschland mit besserer GUI und weiteren Funktionen, Java.
- NTLK: Spezialisiert auf Natural Language Processing, stellt aber auch Algorithmen nach Stand der Technik für Python zur Verfügung
- SVMlight: Gute Implementierung von Support-Vektor-Maschinen, alternatives LibSVM Framework ist auch z.B. in Weka verfügbar.
Links
- Forum Internal
- Wiki
- Data Mining Cup
- Forum D120
Kontakt
Johannes Fürnkranz, Frederik Janssen, Eneldo Loza Mencía, Jinseok Nam, Christian Wirth