Data Mining Cup 2013

Praktikum aus maschinellem Lernen und Data Mining (6 CP)

News

Die finale Deadline für die Einreichung der Programme ist der 15.5.

Anmeldung

Es ist eine verbindliche Anmeldung per Mail bis zum 10.03.2013 nötig, da auf Grund der Wettbewerbsmodalitäten ein Beginn während der vorlesungsfreien Zeit erforderlich ist. Dies ist natürlich kein Ersatz für eine TUCaN Anmeldung.

Vorbesprechung

Die Vorbesprechung findet am Dienstag, den 12.03.2013 um 15:20 Uhr statt. Der Raum wird noch bekannt gegeben. Bitte beachten Sie, dass eine Teilnahme zwingend notwendig ist

Inhalt und Ablauf

Im Zuge dieses Praktikums werden wir am Data Mining Cup teilnehmen. Der Data Mining Cup ist ein internationaler Wettbewerb für Studenten. Dabei muß eine festgelegte Data Mining Aufgabe gelöst werden. In den letzten Jahren wurden vorzugsweise reelle Daten aus dem Verkauf analysiert, so sollten u.a. Buchverkäufe, Gutscheineinlösungen, Auktionspreise und Zahlungsausfälle vorhergesagt werden. Die diesjährige Aufgabe wird am 3. April 2013 veröffentlicht. Die bis 15.05.2013 eingesandten Lösungen werden gesammelt und von den Veranstaltern anhand einer Test-Menge, deren Ausgänge vorher unbekannt sind, evaluiert.

Aufgabe des Praktikums ist Ausarbeitung und Einreichung einer Lösung für den Data Mining Cup. Die Hauptarbeit wird dabei in den ersten Wochen des Sommersemesters anfallen, in denen Sie in Teams von bis zu drei Personen die Lösung erarbeiten müssen. Die einzelnen Lösungen sollen dann im Zuge des weiteren Verlaufs des Praktikums (noch vor Bekanntgabe der offiziellen Lösung) dokumentiert und im Rahmen von Vorträgen vorgestellt werden.

Das Praktikum beginnt schon Anfang März. Die Idee ist, daß Sie bis zum Beginn des Wettbewerbs Aufgaben aus den letzten Jahren bearbeiten um sich grundlegende Techniken anzueignen und Ihre Lösung dann beim ersten Treffen im SS vorstellen. Während der ersten Phase der Ausarbeitung der Lösung werden in etwa alle zwei Wochen Treffen zum Ideenaustausch stattfinden, in der heissen Phase des Praktikums (während der Laufzeit des Wettbewerbs) werden wir uns voraussichtlich öfters treffen. Am Ende werden die zwei besten Lösungen ermittelt und eingereicht.

Termine

So, 10.03.2013 Anmeldefrist
Di, 12.03.2013 Vorbesprechung, Gruppeneinteilung, Verteilung der Themen (um 15:20 Uhr in Raum S202/E202)
Mo, 25.03.2013 Zwischenbesprechung (um 15:00 Uhr in Raum S202/A126)
Do, 04.04.2013 Besprechung der aktuellen Aufgabenstellung, Abgabe der Präsentationen (um 15:00 Uhr in Raum S202/E302)
Do, 11.04.2013 1. Besprechung (um 15:00 Uhr in Raum S202/D219)
Di, 16.04.2013 Abschlußberichte der Themen der letzten Jahre (regulärer Termin)
Di, 23.04.2013 reguläre Besprechung (15:20 Uhr in Raum S202/D219)
Di, 30.04.2013 reguläre Besprechung (15:20 Uhr in Raum S202/D219)
Di, 07.05.2013 reguläre Besprechung (15:20 Uhr in Raum S202/D219)
Di, 14.05.2013 reguläre Besprechung (15:20 Uhr in Raum S202/D219)
Mi, 15.05.2013 Letzte Möglichkeit zur Einreichung der Programme beim DMC

Beurteilung

Die Lösungen können in Gruppenarbeit (2-3 Teilnehmer pro Gruppe) erstellt werden. Beurteilt wird Ihr Engagement für das Praktikum und die Qualität Ihres Lösungsweges (nicht unbedingt die Qualität der Lösung selbst, d.h. das Abschneiden im Wettbewerb ist nicht unmittelbar notenrelevant).

Wiki und Forum

Zu der Veranstaltung wird es einen Wiki und ein Forum geben. Das Wiki ist dazu gedacht Neuigkeiten zu veröffentlichen, sowie Termine bekannt zu geben. Außerdem wird es dort auch allgemeine Informationen geben. Im Forum sollten Fragen zu entsprechenden Problemen, die während des Prozesses auftreten, gestellt und vor allem auch beantwortet werden. Die Links werden noch bekannt gegeben

Literatur

Die folgenden Artikel könnten für eine erfolgreiche Projekt-Bewältigung hilfreich sein:

Alex Berson et al., An Overview of Data Mining Techniques, Building Data Mining Applications for CRM, 1999
Dorian Pyle, This Way Failure Lies, DB2 Magazine 9(1), 2004.
Michael C. Mozer et al., Prediction and classification: Pitfalls for the unwary, 2000.

Tools

Die folgenden Software-Tools stellen Algorithmen und Werkzeuge für das Bearbeiten der Arbeit bereit:

Weka: Eins der beliebtesten Frameworks und APIs im Maschinellem Lernen, in Java geschrieben.
RapidMiner: Framework ähnlich Weka aus Deutschland mit besserer GUI und weiteren Funktionen, Java.
NTLK: Spezialisiert auf Natural Language Processing, stellt aber auch Algorithmen nach Stand der Technik für Python zur Verfügung
SVMlight: Gute Implementierung von Support-Vektor-Maschinen, alternatives LibSVM Framework ist auch z.B. in Weka verfügbar.