Web Mining

Data Mining im Internet

LVA 20-00-0101-iv im Vorlesungsverzeichnis der TU Darmstadt, SS 15. Zur Übungsseite.

Wiederholungsprüfung Web Mining
Aufgrund der geringen Zahl der Anmeldungen wird die Prüfung in mündlicher Form stattfinden. Prüfungstage sind Donnerstag, der 18.02.16 und Freitag, der 19.02.16.
Der genaue Termin (Tag und Uhrzeit) wird jedem Teilnehmer rechtzeitig über TUCaN mitgeteilt.
Bei Rückfragen melden Sie sich bitte im Sekretariat von KE bei Frau Ploch.

Die endgültigen Klausurergebnisse sind nun im TuCan veröffentlicht.

Übersicht

Das World-Wide Web verschafft jedem Internet-User Zugang zu einer stetig wachsenden Informationsfülle, die ohne entsprechende Unterstützung nicht mehr zu überschauen ist. Web Mining ist eine junge Forschungsrichtung, die versucht, das Problem mit Hilfe von Techniken des Maschinellen Lernens und Data Minings in den Griff zu bekommen. In dieser Vorlesung werden sowohl Grundlagen von Information Retrieval und Text Classification vermittelt, als auch auf die Ausnutzung der Besonderheiten von Web-Dokumenten (d.h., ihre Strukturierung und ihre Vernetzung) eingegangen.

Anrechnung

Diese integrierte Lehrveranstaltung (4 SWS / 6 CP) ist eine Pflichtveranstaltung im Masterstudium Internet- und Web-basierte Systeme, im Masterstudium Informatik dem Bereich Data and Knowledge Engineering zugeordnet. Im Bachelorstudium ist sie eine Wahlpflichtveranstaltung.

Übungen

In den Übungen werden die Studenten praktische Implementierungen einiger der in der Vorlesung behandelten Techniken erstellen bzw. mit existierenden Systemen arbeiten. Die Teilnahme an den Übungen ist optional, es können aber Bonuspunkte für die Klausur erworben werden, allerdings nur bei Bestehen der Klausur.

Allgemeine Informationen zu den Übungen und die Aufgaben finden Sie auf der Übungsseite. Alles Weitere wird in den Veranstaltungen mitgeteilt oder an dieser Stelle bekannt gegeben.

Zeitplan

Übungstermin ist alle 2 Wochen am Dienstag, Vorlesungen können (aufgrund von Feiertagen und anderer Terminkonflikte) sowohl am Donnerstag als auch am Dienstag stattfinden. Die Veranstaltungen finden jeweils um 11:40 Uhr in Raum S202/C205 statt.

Die vorläufige Planung ist folgende:

Forum

Für diese Veranstaltung existiert bei der Fachschaft ein Forum.

Klausur

Die Klausur findet am Dienstag, den 21.07.2015 um 14:25 in S101/A1 (Audimax) statt und wird voraussichtlich eine Länge von 90 Min. haben.

Zur Prüfung bitte fristgerecht über TUCaN anmelden. Diplomstudenten bitte per Email an unser Sekretariat mit Angabe von Name, Matrikelnummer und Studienrichtung anmelden.

Die Bearbeitungszeiten für Web Mining Klausuren betragen 90 Minuten. Als Hilfsmittel ist ein handbeschriebenes DIN A4 Blatt (Vorder- und Rückseite) erlaubt.

Alte Klausuren:

Topics & Slides

Unten finden Sie eine vorläufige Gliederung der Vorlesung, die dem Stand aus dem letzten Jahr entspricht. Sie wird sukzessive angepasst, und ggf. die Vorlesungsfolien durch neuere Versionen ersetzt.

Introduction
- Web Mining Overview
- The Web, HTTP, HTML, DOM, XPath
- Data Mining Overview
- Structured, Semi-Structured and Unstructured Data
- Sample Web Mining Tasks
Information Retrieval on the Web
- search engines & web crawlers
- document indexing
- the vector space model
- inverted index
- performance measures (recall & precision)
- relevance feedback
- estimating the size of the web
Text Mining
- text classification
  - document representation
  - induction of classifiers (k-NN, Naive Bayes, SVMs, Rule Learners)
  - Overfitting Avoidance
  - Evaluation of Classifiers
  - Multi-Label Classification
- feature engineering
  - stop words
  - feature subset selection
  - n-grams
  - stemming
  - phrases
  - latent semantic indexing
- semi- and unsupervised learning
  - clustering (k-means, bottom-up agglomerative)
  - semi-supervised learning (active learning, self-training, co-training)
Structure mining
- the Web as a graph
- hyperlink-based relevance ranking (hubs and authorities, page rank)
- hypertext classification (Naive Method, HyperClass, hyperlink ensembles)
Information Extraction & Wrapper Induction
- conventional information extraction (AutoSlog)
- structured text (LR-Wrappers)
- semi-structured text (SoftMealy, WHISK, SRV, RAPIER)
Web Usage Mining
- recommender systems
- memory-based collaborative filtering
- model-based collaborative filtering
- web log mining

Vorlesungsaufzeichnungen

In diesem Semester werden wir versuchen, Aufzeichnungen der Vorlesung zur Verfügung zu stellen. Das ist ein zusätzliches Angebot, das aus unserer Sicht den Besuch der Veranstaltung nicht ersetzt. Insbesondere sollten Sie sich nicht darauf verlassen, dass die Aufzeichnung immer problemlos klappt.

Vorlesung 16.4. (avi)
Vorlesung 23.4. (mp4)
Vorlesung 28.4. (mp4)
Vorlesung 30.4. (Teil1/mp4, Teil2/mp4)
Vorlesung 07.5. (mp4)
Vorlesung 21.5. (mp4)
Vorlesung 28.5. (mp4)
Vorlesung 11.6. (Aufzeichnung hat leider nicht geklappt, sorry)
Vorlesung 18.6. (mp4)
Vorlesung 2.7. (mp4)
Vorlesung 9.7. (Crash der Aufzeichnungs-Software, sorry)

Text Books

Ein Großteil des Materials, das in der Vorlesung behandelt wird (und viel mehr), wird in diesem Buch abgedeckt: Soumen Chakrabarti: Mining the Web - Discovering Knowledge from Hypertext Data. Morgan Kaufmann Publishers, 2003. Das Buch kann bei google books eingesehen werden. Folien zu dem Buch gibt es hier.
Einige Teile der Vorlesung werden sich auch an diesem Buch orientieren: Christopher D. Manning, P. Raghavan and H. Schütze, Introduction to Information Retrieval, Cambridge University Press. 2008. Sowohl das Buch selbst als auch Folien zu dem Buch können auf der Buch-Homepage runtergeladen werden.

Additional Readings

Zusätzliche Informationen finden sich in folgenden Resourcen:

General Overviews:
- Soumen Chakrabarti, Data Mining for Hypertext: A Tutorial Survey. ACM SIGKDD explorations 1(2):1-11, January 2000.
- Johannes Fürnkranz, Web Mining, Draft book chapter, 2004.
Graph Properties of the Web:
- A. Broder, F. Maghoul, R. Kumar, P. Raghavan, S. Rajagopalan, R. Stata, A. Tomkins, and J. Wiener. Graph structure in the Web. Computer Networks, 33(1-6):309--320, 2000. Special Issue Proceedings 9th International World Wide Web Conference (WWW9)
Search Engines:
- http://www.searchenginewatch.com/resources/
Text Mining:
- Fabrizio Sebastiani, Machine learning in automated text categorization. ACM Computing Surveys, 34(1):1-47, 2002.
Feature Engineering
- Yiming Yang, Jan O. Pedersen: A Comparative Study on Feature Selection in Text Categorization. Proceedings of the International Conference on Machine Learning (ICML-97), pp. 412-420, 1997.
Hypertext Categorization

Soumen Chakrabarti, Byron E. Dom, and Piotr Indyk. Enhanced Hypertext Categorization using Hyperlinks. In Proceedings of ACM SIGMOD-98, 1998.
Johannes Fürnkranz: Hyperlink Ensembles: A Case Study in Hypertext Classification. Information Fusion 3(4):299-312, December 2002, Special Issue on Fusion of Multiple Classifiers.

Information Extraction:
- Line Eikvil, Information Extraction from World Wide Web - A Survey. Technical Report 945, Norwegian Computing Center, July 1999.
Web Usage Mining:
- J. Srivastava, R. Cooley, M.Deshpande, P.Tan, Web usage mining: discovery and applications of web usage patterns from web data. ACM SIGKDD explorations 1(2):12-23, January 2000.
Recommender Systems:
- John S. Breese and David Heckerman and Carl Kadie, Empirical Analysis of Predictive Algorithms for Collaborative Filtering, Proceedings of the 14th Conference on Uncertainty in Artificial Intelligence (UAI-98), pp. 43-52, 1998.
Software:
- Rainbow (text classification system)

Kontakt

Johannes Fürnkranz, Eneldo Loza Mencía