3. Übungsblatt - Web Mining

Binäre Klassifikation von Internet-Seiten

Abgabe: bis 18.5.

Daten besorgen, Klassen definieren
1. Besorgen Se sich eine Sammlung aus Internet-Seiten, die jeweils einer von zwei Klassen zugeordnet sind. Z.B. können Sie den course vs. non-course -Datensatz von WebKB herunterladen und davon die Dateien aus dem Ordner fulltext verwenden. Aber Sie können auch andere Datensätze suchen oder selbst einen erstellen, indem Sie Seiten sammeln und diese binär klassifizieren.
  Teilen Sie den Datensatz randomisiert in Trainings- und Testmenge im Verhältnis 1:1 auf. Wenn Sie wenig Daten haben, können Sie das Verhältnis auch zugunsten der Trainingsmenge verschieben. Für das Training sollten Sie wenigstens auf 160 und für das Testen auf wenigstens 80 Seiten zurückgreifen können.

Aufbereitung der Daten
1. Dokument zu Wort-Liste
  Extrahieren Sie den Inhalt der Seiten, etwa mit dem tool html2text, und zerlegen Sie diesen Text in eine Liste von Wörtern. Was Wort hier bedeutet, legen Sie selbst fest. Spezifizieren Sie diese Abbildung, d.h. erklären Sie, was aus dem Originaldokument erhalten bleibt und was wie reduziert wird.
2. Wort-Liste zu TF-IDF-Vektor
  Wählen Sie als Menge der Terme alle Wörter, die in den Wort-Listen des Trainingssets auftauchen. Bilden Sie für jedes Dokument den TF-IDF-Vektor, indem Sie für jeden Term seine relative Häufigkeit innerhalb des Dokuments (TF) mit seiner logarithmierten inversen document frequency (IDF) multiplizieren (siehe Folien).
  Bemerkungen:
  - Sollte sich im weiteren Verlauf herausstellen, dass die Anzahl der gewonnen features zu groß für Ihr Programm ist, können Sie z.B. Terme mit kleinerer DF aus der Termmenge streichen. Ein solches Vorgehen bezeichnet man als feature selection.
  - Sowohl die Definition der Termmenge als auch die IDF-Werte werden allein anhand des Trainingssets erstellt und beim Testen wiederverwendet. Denn abgesehen von der konkreten Testinstanz sollen keine Informationen aus dem Testset in die Klassifikation einfließen.
3. Überführen sie die feature-Vektoren in eine sparse-Repräsentation und speichern Sie diese sowie die Labelinformationen ab.
Training und Evaluation
Zur automatischen Klassifikation von Internet-Seiten soll nun eine support vector machine trainiert werden. Verwenden Sie hierfür das libsvm-framework, das über verschiedene Programmiersprachen eingebunden werden kann. Als performance-Maß soll hier stets accuracy verwendet werden.
1. Machen Sie sich mit dem framework und der von Ihnen gewählten Schnittstelle vertraut, indem Sie eine C-SVM mit den in Teil 2 vorbereiteten Daten trainieren und evaluieren. Verwenden Sie einen Kernel und Parameter ihrer Wahl.
2. Vergleichen Sie die performance auf der Testmenge wenn der Klassifikator mit verschiedenen polynomiellen Kerneln (<x,y> + 1)^g trainiert wird. Setzen Sie dafür verschiedene tradeoff-Parameter ein, C=2^-10,2^-9,...2^5, und vergleichen diese Testwerte für verschiedene Kernel-Parameter, g=1 (linearer Kernel), 2, 3, 4.
3. Gehen Sie nun zurück zu Teilaufgabe 2 und ändern Sie Definition der Abbildung Dokument zu feature-Vector in einer Weise ab, von der Sie sich Vorstellen könnten, dass es die Klassifikation verbessert. Vergleichen Sie die performance dieses neuen Klassifikators mit dem vorangegangenen für g=2 und verschiedene C-Werte, C=2^-10,2^-9,...2^5. Falls Ihre feature-Definition einen Parameter enthält, setzen Sie C=1 und trainieren stattdessen mit verschiedenen Werten des feature-Parameters.
  Hier kommt es nicht darauf an, daß sich die performance tatsächlich verbessert, sondern auf eine alternative feature-Definition und ihre Evaluation.
4. Für den Vergleich mit einem dritten Klassifikator mit einer bestimmten performance auf dem Testset wäre es naheliegend, diejenigen Parameterwerte (C, g, o.a.) zu wählen, für die die performance am besten ist. Warum ist dieses Vorgehen problematisch? Wie ließe sich dieses Problem beheben?