Seminar aus maschinellem Lernen - WS 06/07
Learning from Data Streams
Im Rahmen dieses Seminars werden wir neue Forschungsergebnisse aus dem Bereich maschinelles Lernen diskutieren. Ausgewählt werden neuere Publikationen aus den relevanten Journalen des Gebiets, insbesondere aus Machine Learning und dem Journal of Machine Learning Research, sowie aus den wichtigsten Konferenzen.
Der diesjährige Themenschwerpunkt liegt auf dem Lernen aus Datenströmen. Während die meisten konventionellen Lern-Algorithmen davon ausgehen, daß eine statische Menge von Tranings-Beispielen vorliegt, gibt es Anwendungsszenarien, in denen eine kontinuierlicher Datenstrom zu erwarten ist. Data Mining- und Lern-Methoden, die sich diesen Gegebenheiten anpassen, bilden den Schwerpunkt dieses Seminars.
Ankündigungen
Zeit und Ort
Tag | Zeit | Raum | Beginn |
---|---|---|---|
Mittwoch | 17:10-18:50 | S202/A102 | 18.10. |
Ablauf
Jede/r Student/in erhält einen oder mehrere Fachartikel zur Ausarbeitung, deren wesentliche Aspekte dann in einem ca. 30-minütigen Vortrag vorgestellt und im Anschluß von allen diskutiert werden sollen. Die Vorträge und/oder Folien können wahlweise auf Deutsch oder Englisch gehalten werden.
Vorkenntnisse
Da diese Artikel dem letzten Stand der Forschung entsprechen, wird einerseits erwartet, dass entsprechende Grundkenntnisse (und Interesse!) in maschinellem Lernen und Data Mining mitgebracht werden, dass man sich aber andererseits im Zuge der Vorbereitung auch selbständig mit der Thematik weiter vertraut macht und ggf. auch weiterführende bzw. grundlegende Literatur zu Rate zieht (bitte Quellen nennen).
Benotung
In die Gesamtnote fließen die Ausarbeitung des Vortrags (Folien), die Präsentation, die Beantwortung von Fragen zum Vortrag, sowie die aktive Teilnahme an der Diskussion bei den Vorträgen anderer ein. Eine schriftliche Ausarbeitung ist nicht notwendig.
Im Vordergrund der Gesamtbenotung steht jedoch die selbständige Auseinandersetzung mit dem Problem. Für eine sehr gute (1.x) Beurteilung muß klar sein, dass Sie die fraglichen Arbeiten verstanden haben und von den vorliegenden Papers abstrahieren können. Eine exakte Wiedergabe des Inhalts der Papiere führt nur zu einer Beurteilung mit 2.x, außerordentlich schwache Leistungen in einem der genannten Punkte zu 3.x oder schlechter.
Themen
A General bibliography on the subject can be found here.- 18.10.2006 Vorbesprechung
- 1.11.2006 Einführung
- Christian Zimmer (Slides)
S. Muthukrishnan (2003) Data streams: Algorithms and Applications. Proceedings of the fourteenth annual ACM-SIAM symposium on discrete algorithms. - Nikos Vormwald (Slides)
Brian Babcock, Shivnath Babu, Mayur Datar, Rajeev Motwani, Jennifer Widom: Models and Issues in Data Stream Systems. Proceedings of the Twenty-first ACM SIGACT-SIGMOD-SIGART Symposium on Principles of Database Systems (PODS 2002), 1-16
- Christian Zimmer (Slides)
- 8.11.2006 Aggregating Statistics
- Matthias Beckerle (Slides)
M. Datar, A. Gionis, P. Indyk, and R. Motwani. Maintaining Stream Statistics Over Sliding Windows In SIAM Journal on Computing, Vol. 31 No. 6 - Christian Humm (Slides)
D. Zhang, D. Gunopulos, V. J. Tsotras and B. Seeger, Temporal and Spatio-Temporal Aggregations over Data Streams using Multiple Time Granularities, Journal of Information Systems, vol. 27, no. 8, 2002.
- Matthias Beckerle (Slides)
- 15.11.2006 Frequent Itemsets Discovery on Data Streams
- Marco Möller (Slides)
G. S. Manku and R. Motwani. Approximate Frequency Counts over Streaming Data. In Proceedings of VLDB 2002, Aug. 2002 - Florian Spitzl (Slides)
Raymond Chi-Wing Wong and Ada Wai-Chee Fu, Mining Top-K Frequent Itemset from Data Streams, Data Mining and Knowledge Discovery 13(2), 2006.
- Marco Möller (Slides)
- 22.11.2006 Learning Decision Trees from Data Streams
- Kei Ogata (Slides)
P. Domingos and G. Hulten. Mining high-speed data streams. Proceedings of the 6th ACM SIGKDD International Conference on Knowledge discovery and data mining 71-80, 2000. - Stefan Heinje (Slides)
J. Gama, Ricardo Rocha, Pedro Medas, Accurate Decision Trees for mining high-speed Data Streams, Proceedings of the 9th ACM SigKDD International Conference in Knowledge Discovery and Data Mining, ACM Press, 2003
- Kei Ogata (Slides)
- 29.11.2006 Entfällt!
- 6.12.2006 Clustering Data Streams
- Philipp Lies (Slides)
Sudipto Guha, Adam Meyerson, Nina Mishra, Rajeev Motwani, Liadan O'Callaghan: Clustering Data Streams: Theory and Practice. IEEE Trans. Knowl. Data Eng. 15(3): 515-528 (2003) - Philip Paulsen
Carlos Ordonez: Clustering binary data streams with K-means. Proceedings of the 8th ACM SIGMOD workshop on Research issues in data mining and knowledge discovery 2003: 12-19
- Philipp Lies (Slides)
- 13.12.2006 Entfällt!
- 20.12.2006 Verschiedenstes
- Matthias Altmann (Slides)
Y. Zhu and D. Shasha. StatStream: Statistical monitoring of thousands of data streams in real time. In VLDB 2002, pages 358--369.
Rule and Ensemble Learning from Data Streams
- Robert Deußer (Slides)
H. Wang, W. Fan, P. Yu and J. Han, Mining Concept-Drifting Data Streams using Ensemble Classifiers, in the 9th ACM International Conference on Knowledge Discovery and Data Mining (SIGKDD), Aug. 2003, Washington DC, USA.
- Matthias Altmann (Slides)
- 10.1.2006Signatures, Concept Drift
- Stefan Steger (Slides)
Corinna Cortes and Daryl Pregibon, Signature-based methods for data streams, Proceedings of Data Mining and Knowledge Discovery (KDD 2001), 2001. - Peter Jaremenko (Slides)
J. Schlimmer and R. Granger (1986) Incremental Learning from Noisy Data, Machine Learning 1(3):317-354, 1986. - Rene Moch (Slides)
Widmer, G. and Kubat, M. (1996). Learning in the Presence of Concept Drift and Hidden Contexts. Machine Learning 23(1), 69-10
- Stefan Steger (Slides)
- 24.1.2006Concept Drift 2
- Vladimir Smoljaninov
Dan Kifer, Shai Ben-David, and Johannes Gehrke. Detecting Change in Data Streams. In Proceedings of the 30th International Conference on Very Large Data Bases (VLDB 2004). Toronto, Canada. August 2004. - Natalia Frei
Ying Yang, Xindong Wu and Xingquan Zhu. http://www.springerlink.com/content/6155052067p72gl7/Mining in Anticipation for Concept Change: Proactive-Reactive Prediction in Data Streams. Data Mining and Knowledge Discovery 13(3), 2006.
- Vladimir Smoljaninov