Web Mining - Data Mining im Internet - SS 05

Johannes Fürnkranz

LVA 20.139.1/2 im Vorlesungsverzeichnis der TU Darmstadt, SS 05.

Ankündigungen

Die Klausur-Noten finden Sie als Aushang am Brett neben Raum E 304 und im Webreg der RBG. Einen Überblick über die Noten- und Punkteverteilung finden Sie hier.

Die Klausur aus dem Vorjahr finden Sie hier.

Zeit

VO: Do 11.40-13.20, S103/123
UE: Di 12.35-14.15, S202/C120

Klausur

Die Klausur findet am 21. 7. 05, 14h, in S101/050 (Audimax) statt.

Die Klausur wird aus Wissensfragen bestehen, die ohne Unterlagen jeglicher Art zu beantworten sein werden.

Overview

Das World-Wide Web verschafft jedem Internet-User Zugang zu einer stetig wachsenden Informationsfülle, die ohne entsprechende Unterstützung nicht mehr zu überschauen ist. Web Mining ist eine junge Forschungsrichtung, die versucht, das Problem mit Hilfe von Techniken des Maschinellen Lernens und Data Minings in den Griff zu bekommen. In dieser Vorlesung werden sowohl Grundlagen von Information Retrieval und Text Classification vermittelt, als auch auf die Ausnutzung der Besonderheiten von Web-Dokumenten (i.e., ihre Strukturierung und ihre Vernetzung) eingegangen.

Übungen

In den Übungen werden die Studenten praktische Implementierungen einiger der in der Vorlesung behandelten Techniken erstellen bzw. mit existierenden Systemen arbeiten. Die Teilnahme an den Übungen ist optional, es können aber Gutpunkte für die Klausur erworben werden, allerdings nur bei Bestehen der Klausur.

Allgemeine Informationen zu den Übungen finden Sie hier. Die Übungsabgabe erfolg on-line hier. Jede Gruppe muß nur einmal abgeben, aber klarerweise sollten die Gruppenmitglieder aus der Abgabe ersichtlich sein.

Topics & Slides:

Momentan verlinkt sind die Folien des Vorjahrs, die auch dieses Jahr die Basis der Vorlesung bilden werden. Gegenfalls werden die Folien jedoch im einigen Punkten angepaßt oder ergänzt werden. Die modifizierten Version werden dann die alten Versionen ersetzen (spätestens nach der jeweiligen Vorlesung).

  • Introduction (minor update 28.4.2005)
    • Web Mining Overview
    • The Web, HTTP, HTML, DOM, XPath
    • Data Mining Overview
    • Structured, Semi-Structured and Unstructured Data
    • Sample Web Mining Tasks
  • Information Retrieval on the Web (slides updated 12.5.2005, zum dritten Mal nach der Vorlesung)
    • search engines & web crawlers
    • document indexing
    • the vector space model
    • inverted index
    • performance measures (recall & precision)
    • relevance feedback
    • estimating the size of the web
  • Text Mining
    • text classification (update 19.5.)
      • document representation
      • induction of classifiers (k-NN, Naive Bayes, SVMs, Decision Trees, Rule Learners)
      • Overfitting Avoidance
      • Evaluation of Classifiers
    • feature engineering (update 15.6.)
      • stop words
      • feature subset selection
      • n-grams
      • stemming
      • phrases
      • latent semantic indexing
    • semi- and unsupervised learning (update 22.6.)
      • clustering (k-means, bottom-up agglomerative)
      • semi-supervised learning (active learning, self-training, co-training)
  • Spam Filtering
  • Structure mining (Slides updated 8.6.)
    • the Web as a graph
    • hyperlink-based relevance ranking (hubs and authorities, page rank)
    • hypertext classification (Naive Method, HyperClass, hyperlink ensembles)
  • Information Extraction & Wrapper Induction (Slides update 29.6.)
    • conventional information extraction (AutoSlog)
    • structured text (LR-Wrappers)
    • semi-structured text (SoftMealy, WHISK, SRV, RAPIER)
    • learnability of island wrappers
  • Recommender Systems (Slides updated 6.7.)
    • memory-based collaborative filtering
    • model-based collaborative filtering

Additional Slides

  • Folien zum Textbuch gibt es hier.

Text Book

Ein Großteil des Materials, das in der Vorlesung behandelt wird (und viel mehr), wird in diesem Buch abgedeckt: Chakrabarti book cover

Additional Readings

Zusätzliche Informationen finden sich in folgenden Resourcen:

Kontakt

juffi@ke.informatik.tu-darmstadt.de

Kontakt

small ke-icon

Knowledge Engineering Group

Fachbereich Informatik
TU Darmstadt

S2|02 D203
Hochschulstrasse 10

D-64289 Darmstadt

Sekretariat:
Telefon-Symbol+49 6151 16-21811
Fax-Symbol +49 6151 16-21812
E-Mail-Symbol info@ke.tu-darmstadt.de

 
A A A | Drucken | Impressum | Sitemap | Suche | Mobile Version
zum Seitenanfangzum Seitenanfang