- Abgabe:
- bis 15.7.
Implementieren Sie Agglomarative Hierarchical Clustering wie in der Vorlesung besprochen:
- Erstellung der Document/Term Matrix (kann idealerweise von früheren Aufgaben übernommen werden)
- Implementierung einer Ähnlichkeitsfunktion zwischen Dokument-Vektoren (z.B. cos-similarity)
- Implementieren Sie die Ähnlichkeitsfunktionen Single-Link und Average-Link für die Ähnlichkeit von Clustern
- Initialisieren der Cluster mit je einem Dokument pro Cluster
- Paarweises Zusammenfassen der jeweils ähnlichsten Cluster
Testen Sie den Algorithmus an einer Aufgabe Ihrer Wahl mit zumindest 100 Dokumenten (z.B. Suchergebnisse, Kapitel verschiedener Bücher/Autoren, Newsgroups-Artikel, E-mail messages,...).
- Interpretieren Sie die gefundenen Cluster-Hierarchien, insbesondere die oberen Ebenen (z.B. durch Betrachten der Features mit dem größten Gewichtsunterschied). Falls Sie
Daten eines Klassifikationsproblems gewählt haben, vergleichen Sie die gefundenen Cluster mit den Klassifikationen.
- Zeichnen Sie die obersten 5-10 Ebenen und versuchen Sie, die Bedeutung der Cluster durch einen Namen zu beschreiben
- Vergleichen Sie die Resultate, die Sie mit Single-Link und Average-Link Distanzen erhalten.