- Abgabe:
- bis 2.7. on-line unter /exercises/
Implementieren Sie einen einfachen k-means Clustering Algorithmus:
- Erstellung der Document/Term Matrix (kann idealerweise von früheren Aufgaben übernommen werden)
- Implementierung einer Ähnlichkeitsfunktion zwischen Dokument-Vektoren (z.B. cos-similarity)
- Vorgabe von k Cluster-Zentren (z.B. zufällig ausgewählte Dokument-Vektoren)
- Zuordnung jedes Dokuments zum ähnlichsten Cluster-Zentrum
- Bestimmung der neuen Cluster-Zentren (Durschnitt der Dokument-Term-Vektoren in einem Cluster)
- Goto 4. bis sich die Cluster-Zentren stabilisieren (oder eine vorgebenen Anzahl von Iterationen überschritten wird)
Testen Sie ihn an einer Aufgabe Ihrer Wahl mit zumindest 100 Dokumenten (z.B. Suchergebnisse, Kapitel verschiedener Bücher/Autoren, Newsgroups-Artikel, E-mail messages,...).
- Interpretieren Sie die gefundenen Cluster-Zentren (z.B. durch Betrachten der Features mit dem größten Gewichtsunterschied).
Experimentieren Sie dabei mit zumindest drei verschiedenen Wertenn für k.
- Untersuchen Sie für ein k die Stabilität des Verfahrens (Vergleich der Resultate mit verschiedenen Startwerten, z.B. zufällig ausgewählten oder möglichst ungünstigen, ....).
Last modified: Thu Jun 23 00:38:50 2005