5. Übungsblatt - Web Mining

Abgabe:
bis 15.7.
Implementieren Sie Agglomarative Hierarchical Clustering wie in der Vorlesung besprochen:
  1. Erstellung der Document/Term Matrix (kann idealerweise von früheren Aufgaben übernommen werden)
  2. Implementierung einer Ähnlichkeitsfunktion zwischen Dokument-Vektoren (z.B. cos-similarity)
  3. Implementieren Sie die Ähnlichkeitsfunktionen Single-Link und Average-Link für die Ähnlichkeit von Clustern
  4. Initialisieren der Cluster mit je einem Dokument pro Cluster
  5. Paarweises Zusammenfassen der jeweils ähnlichsten Cluster
Testen Sie den Algorithmus an einer Aufgabe Ihrer Wahl mit zumindest 100 Dokumenten (z.B. Suchergebnisse, Kapitel verschiedener Bücher/Autoren, Newsgroups-Artikel, E-mail messages,...).
  1. Interpretieren Sie die gefundenen Cluster-Hierarchien, insbesondere die oberen Ebenen (z.B. durch Betrachten der Features mit dem größten Gewichtsunterschied). Falls Sie Daten eines Klassifikationsproblems gewählt haben, vergleichen Sie die gefundenen Cluster mit den Klassifikationen.
  2. Zeichnen Sie die obersten 5-10 Ebenen und versuchen Sie, die Bedeutung der Cluster durch einen Namen zu beschreiben
  3. Vergleichen Sie die Resultate, die Sie mit Single-Link und Average-Link Distanzen erhalten.
Kontakt

small ke-icon

Knowledge Engineering Group

Fachbereich Informatik
TU Darmstadt

S2|02 D203
Hochschulstrasse 10

D-64289 Darmstadt

Sekretariat:
Telefon-Symbol+49 6151 16-21811
Fax-Symbol +49 6151 16-21812
E-Mail-Symbol info@ke.tu-darmstadt.de

 
A A A | Drucken | Impressum | Sitemap | Suche | Mobile Version
zum Seitenanfangzum Seitenanfang