5. Übungsblatt - Web Mining

Abgabe:
bis 2.7. on-line unter /exercises/
Implementieren Sie einen einfachen k-means Clustering Algorithmus:
  1. Erstellung der Document/Term Matrix (kann idealerweise von früheren Aufgaben übernommen werden)
  2. Implementierung einer Ähnlichkeitsfunktion zwischen Dokument-Vektoren (z.B. cos-similarity)
  3. Vorgabe von k Cluster-Zentren (z.B. zufällig ausgewählte Dokument-Vektoren)
  4. Zuordnung jedes Dokuments zum ähnlichsten Cluster-Zentrum
  5. Bestimmung der neuen Cluster-Zentren (Durschnitt der Dokument-Term-Vektoren in einem Cluster)
  6. Goto 4. bis sich die Cluster-Zentren stabilisieren (oder eine vorgebenen Anzahl von Iterationen überschritten wird)
Testen Sie ihn an einer Aufgabe Ihrer Wahl mit zumindest 100 Dokumenten (z.B. Suchergebnisse, Kapitel verschiedener Bücher/Autoren, Newsgroups-Artikel, E-mail messages,...).
  1. Interpretieren Sie die gefundenen Cluster-Zentren (z.B. durch Betrachten der Features mit dem größten Gewichtsunterschied). Experimentieren Sie dabei mit zumindest drei verschiedenen Wertenn für k.
  2. Untersuchen Sie für ein k die Stabilität des Verfahrens (Vergleich der Resultate mit verschiedenen Startwerten, z.B. zufällig ausgewählten oder möglichst ungünstigen, ....).
Last modified: Thu Jun 23 00:38:50 2005
Kontakt

small ke-icon

Knowledge Engineering Group

Fachbereich Informatik
TU Darmstadt

S2|02 D203
Hochschulstrasse 10

D-64289 Darmstadt

Sekretariat:
Telefon-Symbol+49 6151 16-21811
Fax-Symbol +49 6151 16-21812
E-Mail-Symbol info@ke.tu-darmstadt.de

 
A A A | Drucken | Impressum | Sitemap | Suche | Mobile Version
zum Seitenanfangzum Seitenanfang