Web Mining

Data Min­ing im In­ter­net

LVA 20-00-0101-iv im Vor­lesungsverze­ich­nis der TU Darm­stadt, SS 14. Zur Übungsseite.

Die Noten für die Klausur sind nun in TuCan einsehbar. Der übliche Aushang mit Punkten befindet sich an der Pinnwand neben Raum D204. Die Klausureinsicht findet am Dienstag, dem 04.11.14 von 15:30-16:30 Uhr in Raum A 313 statt.

Übersicht

Das World-Wide Web verschafft jedem Internet-User Zugang zu einer stetig wachsenden Informationsfülle, die ohne entsprechende Unterstützung nicht mehr zu überschauen ist. Web Mining ist eine junge Forschungsrichtung, die versucht, das Problem mit Hilfe von Techniken des Maschinellen Lernens und Data Minings in den Griff zu bekommen. In dieser Vorlesung werden sowohl Grundlagen von Information Retrieval und Text Classification vermittelt, als auch auf die Ausnutzung der Besonderheiten von Web-Dokumenten (d.h., ihre Strukturierung und ihre Vernetzung) eingegangen.

Anrechnung

Diese integrierte Lehrveranstaltung (4 SWS / 6 CP) ist eine Pflichtveranstaltung im Masterstudium Internet- und Web-basierte Systeme, im Masterstudium Informatik dem Bereich Data and Knowledge Engineering zugeordnet. Im Bachelorstudium ist sie eine Wahlpflichtveranstaltung.

Übungen

In den Übungen werden die Studenten praktische Implementierungen einiger der in der Vorlesung behandelten Techniken erstellen bzw. mit existierenden Systemen arbeiten. Die Teilnahme an den Übungen ist optional, es können aber Bonuspunkte für die Klausur erworben werden, allerdings nur bei Bestehen der Klausur.

Allgemeine Informationen zu den Übungen und die Aufgaben finden Sie auf der Übungsseite. Alles Weitere wird in den Veranstaltungen mitgeteilt oder an dieser Stelle bekannt gegeben.

Zeitplan

Übungstermin ist alle 2 Wochen am Dienstag, Vorlesungen können (aufgrund von Feiertagen und anderer Terminkonflikte) sowohl am Donnerstag als auch am Dienstag stattfinden. Die Veranstaltungen finden jeweils um 11:40 Uhr in Raum S202/C205 statt.

Die vorläufige Pla­nung ist fol­gende:

Forum

Für diese Veranstaltung existiert bei der Fachschaft ein Forum.

Klausur

Die Klausur findet am Dienstag, 22.7. um 14:15 Uhr im S1|01 A1 (Audimax) statt und wird eine Länge von 90 Min. haben. 

Zur Prüfung bitte fristgerecht über TUCaN anmelden. Diplomstudenten bitte per Email an unser Sekretariat mit Angabe von Name, Matrikelnummer und Studienrichtung anmelden.

Die Bearbeitungszeiten für Web Mining Klausuren  betragen 90 Minuten. Als Hilfsmittel ist ein handbeschriebenes DIN A4 Blatt (Vorder- und Rückseite) erlaubt.

Alte Klausuren:

Topics & Slides:

Momentan verlinkt sind die Folien der letzten Veranstaltung, die auch dieses Jahr die Basis der Vorlesung bilden werden. Gegenfalls werden die Folien jedoch im einigen Punkten angepaßt oder ergänzt. Die modifizierten Version werden dann die alten Versionen ersetzen (spätestens nach der jeweiligen Vorlesung).

  • Introduction
    • Web Mining Overview
    • The Web, HTTP, HTML, DOM, XPath
    • Data Mining Overview
    • Structured, Semi-Structured and Unstructured Data
    • Sample Web Mining Tasks
  • Information Retrieval on the Web
    • search engines & web crawlers
    • document indexing
    • the vector space model
    • inverted index
    • performance measures (recall & precision)
    • relevance feedback
    • estimating the size of the web
  • Text Mining
    • text classification
      • document representation
      • induction of classifiers (k-NN, Naive Bayes, SVMs, Rule Learners)
      • Overfitting Avoidance
      • Evaluation of Classifiers
      • Multi-Label Classification
    • feature engineering
      • stop words
      • feature subset selection
      • n-grams
      • stemming
      • phrases
      • latent semantic indexing
    • semi- and unsupervised learning
      • clustering (k-means, bottom-up agglomerative)
      • semi-supervised learning (active learning, self-training, co-training)
  • Structure mining
    • the Web as a graph
    • hyperlink-based relevance ranking (hubs and authorities, page rank)
    • hypertext classification (Naive Method, HyperClass, hyperlink ensembles)
  • Information Extraction & Wrapper Induction
    • conventional information extraction (AutoSlog)
    • structured text (LR-Wrappers)
    • semi-structured text (SoftMealy, WHISK, SRV, RAPIER)
  • Web Usage Mining
    • recommender systems
    • memory-based collaborative filtering
    • model-based collaborative filtering
    • web log mining

Text Books

Ein Großteil des Materials, das in der Vorlesung behandelt wird (und viel mehr), wird in diesem Buch abgedeckt: Chakrabarti book cover
Einige Teile der Vorlesung werden sich auch an diesem Buch orientieren: book cover  Information Retrieval

Additional Readings

Zusätzliche Informationen finden sich in folgenden Resourcen:

Kontakt

Johannes Fürnkranz, Eneldo Loza Mencía

Kontakt

small ke-icon

Knowledge Engineering Group

Fachbereich Informatik
TU Darmstadt

S2|02 D203
Hochschulstrasse 10

D-64289 Darmstadt

Sekretariat:
Telefon-Symbol+49 6151 16-21811
Fax-Symbol +49 6151 16-21812
E-Mail-Symbol info@ke.tu-darmstadt.de

 
A A A | Drucken | Impressum | Sitemap | Suche | Mobile Version
zum Seitenanfangzum Seitenanfang