Übung 1 - Web Mining

  1. Überlegen Sie sich eine neuartige, originelle Web Min­ing An­wen­dung, die mit Text-Klas­si­fika­tionsver­fahren gelöst wer­den könnte. Skizzieren Sie eine mögliche Um­set­zung (z.B. Samm­lung der Train­ings­dat­en, Klas­si­fika­tion der Train­ings­dat­en, Ein­satz des gel­ern­ten Klas­si­fika­tors in der Prax­is, etc.). (2 Punkte)
  2. Schreiben Sie ein ein­fach­es Pro­gramm, das eine sortierte Liste der in einem Text vork­om­menden Worte (im weitesten Sinn alles was durch Leerze­ichen be­gren­zt wird) mit den as­sozi­ierten Häufigkeit­en (absolut und prozentual) er­stellt und sortiert ausgibt. (2 Punkte)
    • Ver­gle­ichen Sie anhand der Ausgabe Ihres Programms die 30 am häufig­sten vork­om­menden Worte in zwei oder mehreren längeren Tex­ten der gle­ichen Sprache (z. B. E-books, Pro­jekt Guten­berg, etc. ). Wählen Sie einge geeignete Darstellung für Ihren Vergleich.
      Sind diese Worte als Merk­male für Text-Klas­si­fizierungs-Auf­gaben geeignet? Warum?
    • Modifizieren Sie Ihr Programm dahingehend, daß es eine Liste von Stoppwörtern erhalten kann, die ignoriert werden. Wiederholen Sie die vorherige Aufgabe, indem Sie jedoch diesmal die Stoppwörter der jeweiligen Sprache ignorieren (eine Auswahl finden Sie unter http://www.nltk.org/nltk_data/packages/corpora/stopwords.zip).
      Wie würden Sie nun die Eignung der 30 häufigsten Wörter einschätzen?
  3. Die Auftrittswahrschein­lichkeit­en von Worten in Tex­ten fol­gen einer so­ge­nan­nten Zipf-Verteilung, d. h. einer Verteilung, die dop­pelt log­a­rith­misch ist. Überprüfen Sie das an­hand der gewählten Texte. (2 Punkte)
    • Plot­ten Sie die Häufigkeit­en (y-Achse) über den Rang (x-Achse), also die An­zahl der Vorkomm­nisse des häufig­sten Wortes zuerst, dann die An­zahl des zwei­thäufig­sten Wortes, etc. Betra­cht­en Sie sowohl eine ab­so­lute als auch eine log­a­rith­mis­che Skalierung bei­der Achsen. Was können Sie beobachten?
    • Bes­tim­men Sie die An­zahl der Worte, die mit einer gegebe­nen Häufigkeit vorkom­men (also, wie viele Wörter gibt es, die mit Häufigkeit 1 vorkom­men, wie viele mit Häufigkeit 2, etc. ). Pro­duzieren Sie ähn­liche Grafiken (An­zahl der Worte mit einer gewis­sen Häufigkeit über die Häufigkeit) und interpretieren Sie diese.
  4. Mod­i­fizieren Sie das Pro­gramm, so daß es nicht Worte son­dern a) Buch­staben bzw. b) Buch­staben­paare zählt. Vergle­ichen Sie deren Häufigkeitsverteilung sowohl zweier in der gleichen Sprache verfassten Texte als auch zweier in ver­schiede­nen Sprachen abge­fasster Texte. (2 Punkte)

Allgemeine Hinweise

Achten Sie darauf, bei den Texten nur die relevanten Abschnitte zu verwenden und z.B. Lizenzhinweise o.ä. auszuschließen. Oft empfiehlt es sich auch, auf unterschiedliche Betrachtung von Groß- und Kleinschreibung zu verzichten.

 

Kontakt

small ke-icon

Knowledge Engineering Group

Fachbereich Informatik
TU Darmstadt

S2|02 D203
Hochschulstrasse 10

D-64289 Darmstadt

Sekretariat:
Telefon-Symbol+49 6151 16-21811
Fax-Symbol +49 6151 16-21812
E-Mail-Symbol info@ke.tu-darmstadt.de

 
A A A | Drucken | Impressum | Sitemap | Suche | Mobile Version
zum Seitenanfangzum Seitenanfang