Web Mining - SS 08
Web Mining - Data Mining im Internet
LVA 20.0101.1 und 20.0101.2 im
Vorlesungsverzeichnis der TU
Darmstadt, SS 08.
Zur Übungsseite
Die Klausurergebnisse hängen an der Pinnwand neben Raum S202/E306 aus und sind auch über das WebReg-System aufrufbar. Die Klausureinsicht findet am Mittwoch, den 3.9.08 von 10-12 Uhr in E302 statt.
Forum
Für diese Veranstaltung wurde bei der Fachschaft ein Forum eingerichtet.
Anrechnung
Diese Vorlesung ist im Diplomstudium Informatik dem Bereich 3 (Anwendungsorientierte Informatik) bzw. im Masterstudium Informatik dem Bereich Data and Knowledge Engineering zugeordnet. Sollten Sie die Vorlesung Information Retrieval bei Thomas Hofmann besucht haben, erhalten Sie aufgrund der großen stofflichen Überlappung für beide Vorlesungen zusammen nur 5 SWS.
Übersicht
Das World-Wide Web verschafft jedem Internet-User Zugang zu einer
stetig wachsenden Informationsfülle, die ohne entsprechende
Unterstützung nicht mehr zu überschauen ist. Web Mining ist
eine junge Forschungsrichtung, die versucht, das Problem mit Hilfe von
Techniken des Maschinellen Lernens und Data Minings in den Griff zu
bekommen. In dieser Vorlesung werden sowohl Grundlagen von Information
Retrieval und Text Classification vermittelt, als auch auf die
Ausnutzung der Besonderheiten von Web-Dokumenten (d.h., ihre
Strukturierung und ihre Vernetzung) eingegangen.
Übungen
In den Übungen werden die Studenten praktische Implementierungen einiger der in der Vorlesung behandelten Techniken erstellen bzw. mit existierenden Systemen arbeiten. Die Teilnahme an den Übungen ist optional, es können aber Bonuspunkte für die Klausur erworben werden, allerdings nur bei Bestehen der Klausur.
Allgemeine Informationen zu den Übungen und die aktuellen Übungsaufgaben finden Sie hier. Alles weitere wird in den Veranstaltungen mitgeteilt oder an dieser Stelle bekannt gegeben.
Zeitplan
Die vorläufige Planung ist die folgende:- Do 03.04. Vorlesung
- Di 08.04. Vorlesung
- Do 10.04. Vorlesung
- Di 15.04. Vorlesung
- Do 17.04. Vorlesung
- Di 22.04. 1. Übung
- Do 24.04. Keine Vorlesung
- Di 29.04. Vorlesung
- Do 01.05. Feiertag
- Di 06.05. 2. Übung
- Do 8.5. Vorlesung
- Do 15.5. Vorlesung
- Di 20.5. Übung
- Do 22.5. Feiertag
- Do 29.5. Vorlesung
- Di 3.6. Übung
- Do 5.6. Vorlesung
- Do 12.6. Vorlesung
- Di 17.6. Übung
- Do 19.6. keine Vorlesung
- Do 26.6. Vorlesung
- Di 1.7. Übung
- Do 3.7. keine Vorlesung
Klausur
Die Klausur findet am 4.7.2008 von 16 bis 18 Uhr in Raum 08 im S311 statt, siehe Prüfungstermine Informatik Master. Die Bearbeitungszeit beträgt 90 Minuten. Als Hilfsmittel ist ein handbeschriebenes DIN A4 Blatt (Vorder- und Rückseite) erlaubt. Für die Klausur ist eine Anmeldung über das WebReg-System notwendig.Die Klausur aus diesem Semester:
Alte Klausuren:
Topics & Slides:
Momentan verlinkt sind die Folien der letzten Veranstaltung, die auch dieses Jahr die Basis der Vorlesung bilden werden. Gegenfalls werden die Folien jedoch im einigen Punkten angepaßt oder ergänzt werden. Die modifizierten Version werden dann die alten Versionen ersetzen (spätestens nach der jeweiligen Vorlesung).
- Introduction
- Web Mining Overview
- The Web, HTTP, HTML, DOM, XPath
- Data Mining Overview
- Structured, Semi-Structured and Unstructured Data
- Sample Web Mining Tasks
- Information Retrieval on the Web (Last Update: 11.4.)
- search engines & web crawlers
- document indexing
- the vector space model
- inverted index
- performance measures (recall & precision)
- relevance feedback
- estimating the size of the web
- Text Mining
- text classification (Last Update: 8.5.)
- document representation
- induction of classifiers (k-NN, Naive Bayes, SVMs, Rule Learners)
- Overfitting Avoidance
- Evaluation of Classifiers
- feature engineering (Last Update: 8.5.)
- stop words
- feature subset selection
- n-grams
- stemming
- phrases
- latent semantic indexing
- semi- and unsupervised
learning (Last update: 28.5.)
- clustering (k-means, bottom-up agglomerative)
- semi-supervised learning (active learning, self-training, co-training)
- text classification (Last Update: 8.5.)
- Structure
mining
- the Web as a graph
- hyperlink-based relevance ranking (hubs and authorities, page rank)
- hypertext classification (Naive Method, HyperClass, hyperlink ensembles)
- Information Extraction &
Wrapper Induction
- conventional information extraction (AutoSlog)
- structured text (LR-Wrappers)
- semi-structured text (SoftMealy, WHISK, SRV, RAPIER)
- Recommender Systems (Last Update: 1.7.)
- memory-based collaborative filtering
- model-based collaborative filtering
Text Books
Ein Großteil
des Materials, das in der Vorlesung behandelt wird (und viel mehr),
wird in diesem Buch abgedeckt:
|
|
Einige Teile der Vorlesung werden sich auch an diesem Buch orientieren:
|
Additional Readings
Zusätzliche Informationen finden sich in folgenden Resourcen:
- General Overviews:
- Soumen Chakrabarti, Data Mining for Hypertext: A Tutorial Survey. ACM SIGKDD explorations 1(2):1-11, January 2000.
- Johannes Fürnkranz, Web Mining, Draft book chapter, 2004.
- Graph Properties of the Web:
- A. Broder, F. Maghoul, R. Kumar, P. Raghavan, S. Rajagopalan, R. Stata, A. Tomkins, and J. Wiener. Graph structure in the Web. Computer Networks, 33(1-6):309--320, 2000. Special Issue Proceedings 9th International World Wide Web Conference (WWW9)
- Search Engines:
- Text Mining:
- Fabrizio Sebastiani, Machine learning in automated text categorization. ACM Computing Surveys, 34(1):1-47, 2002.
- Feature Engineering
- Yiming Yang, Jan O. Pedersen: A Comparative Study on Feature Selection in Text Categorization. Proceedings of the International Conference on Machine Learning (ICML-97), pp. 412-420, 1997.
- Hypertext Categorization
- Soumen Chakrabarti, Byron E. Dom, and Piotr Indyk. Enhanced Hypertext Categorization using Hyperlinks. In Proceedings of ACM SIGMOD-98, 1998.
- Johannes Fürnkranz: Hyperlink Ensembles: A Case Study in Hypertext Classification. Information Fusion 3(4):299-312, December 2002, Special Issue on Fusion of Multiple Classifiers.
- Information Extraction:
- Line Eikvil, Information Extraction from World Wide Web - A Survey. Technical Report 945, Norwegian Computing Center, July 1999.
- Web Usage Mining:
- J. Srivastava, R. Cooley, M.Deshpande, P.Tan, Web usage mining: discovery and applications of web usage patterns from web data. ACM SIGKDD explorations 1(2):12-23, January 2000.
- Recommender Systems:
- John S. Breese and David Heckerman and Carl Kadie, Empirical Analysis of Predictive Algorithms for Collaborative Filtering, Proceedings of the 14th Conference on Uncertainty in Artificial Intelligence (UAI-98), pp. 43-52, 1998.
- Software:
- Rainbow (text classification system)