1. Übungsblatt - Web Mining
Abgabetermin: Sonntag, 2.5.2010
- Überlegen Sie sich eine Web Mining Anwendung, die mit Text-Klassifikationsverfahren gelöst werden könnte. Skizzieren Sie eine mögliche Umsetzung (Sammlung der Trainingsdaten, Klassifikation der Trainingsdaten, Einsatz des gelernten Klassifikators in der Praxis).
- Schreiben Sie ein einfaches Programm, das eine sortierte
Liste der in einem Text vorkommenden Worte (im weitesten Sinn
alles was durch Leerzeichen begrenzt wird) mit
den assoziierten Häufigkeiten erstellt und z.B. auf STDOUT
ausgibt.
- Vergleichen Sie die 30 am häufigsten vorkommenden Worte in zwei oder mehreren längeren Texten der gleichen Sprache (z.B. E-books, Projekt Gutenberg, etc.). Sind diese Worte als Merkmale für Text-Klassifizierungs-Aufgaben geeignet? Warum?
-
Die Auftrittswahrscheinlichkeiten von Worten in Texten folgen einer
sogenannten Zipf-Verteilung, d.h. einer Verteilung, die doppelt
logarithmisch ist. Überprüfen Sie das anhand der
gewählten Texte.
- Plotten Sie die Häufigkeiten über den Rang (also die Anzahl der Vorkommnisse des häufigsten Worts zuerst, dann die Anzahl des zweithäufigsten Worts, etc.). Betrachten Sie sowohl eine absolute als auch eine logarithmische Skalierung beider Achsen.
- Bestimmen Sie die Anzahl der Worte, die mit einer gegebenen Häufigkeit vorkommen (also, wie viele Wörter gibt es, die mit Häufigkeit 1 vorkommen, wie viele mit Häufigkeit 2, etc.). Produzieren Sie ähnliche Grafiken (Anzahl der Worte mit einer gewissen Häufigkeit über die Häufigkeit).
- Modifizieren Sie das Programm, so daß es nicht Worte sondern Buchstaben und Buchstabenpaare zählt. Vergleichen Sie deren Häufigkeitsverteilung zweier in verschiedenen Sprachen abgefasster Texte.
-
Benford's Law besagt, daß Zahlen im Allgemeinen nicht
gleichverteilt sind, sondern logarithmisch verteilt sind
(kleine Zahlen sind ungleich wahrscheinlicher als große
Zahlen). Insbesondere gilt das auch für die erste Ziffer
einer Zahl (1 sollte häufiger auftreten als 9).
- Überprüfen Sie diese Hypothese, indem Sie Seiten mit vielen Zahlen betrachten (z.B. Börsenkurse) und die Häufigkeit des Auftretens der ersten sowie der letzten Ziffer jeder Zahl berechnen.