Web Min­ing

Data Min­ing im In­ter­net

Die Klausurergeb­nisse sind ab so­fort im We­bReg-Sys­tem oder an der Pin­nwand vor Raum D202 einsehbar.​ Die Klausurein­sicht find­et am 16.9. von 11:00 bis 12:30 Uhr in Raum E202 statt.

LVA 20.0101.1 und 20.0101.2 im Vor­lesungsverze­ich­nis der TU Darm­stadt, SS 10.​ Zur Übungs­seite.

Übersicht

Das World-Wide Web ver­schafft jedem In­ter­net-Us­er Zu­gang zu einer stetig wach­senden In­for­ma­tionsfülle, die ohne entsprechende Un­ter­stützung nicht mehr zu überschauen ist.​ Web Min­ing ist eine junge Forschungsrich­tung, die ver­sucht, das Prob­lem mit Hilfe von Tech­niken des Maschinellen Ler­nens und Data Min­ings in den Griff zu bekommen.​ In dieser Vor­lesung wer­den sowohl Grund­la­gen von In­for­ma­tion Re­trieval und Text Clas­si­fi­ca­tion ver­mit­telt, als auch auf die Aus­nutzung der Beson­der­heit­en von Web-Doku­menten (d.​h.,​ ihre Struk­turierung und ihre Ver­net­zung) einge­gan­gen.

An­rech­nung

Diese Vor­lesung ist im Diplom­studi­um In­for­matik dem Bere­ich 3 (An­wen­dung­sori­en­tierte In­for­matik) bzw.​ im Mas­ter­studi­um In­for­matik dem Bere­ich Data and Knowl­edge En­gi­neer­ing zugeordnet.​ Im Bach­e­lorstudi­um ist sie eine Wahlpflichtveranstaltung.​ Die Vor­lesung ist Pflicht im Mas­ter­stu­di­en­gang In­ter­net- und Web-basierte Sys­teme.

Übun­gen

In den Übun­gen wer­den die Stu­den­ten prak­tis­che Im­ple­men­tierun­gen einiger der in der Vor­lesung be­han­del­ten Tech­niken er­stellen bzw.​ mit ex­istieren­den Sys­te­men arbeiten.​ Die Teil­nahme an den Übun­gen ist op­tion­al, es können aber Bonus­punk­te für die Klausur er­wor­ben wer­den, allerd­ings nur bei Beste­hen der Klausur.

All­ge­meine In­for­ma­tio­nen zu den Übun­gen und die Auf­gaben find­en Sie auf der Übungs­seite. Alles Weit­ere wird in den Ve­r­anstal­tun­gen mit­geteilt oder an dieser Stelle bekan­nt gegeben.

Zeit­plan

Übung­ster­min ist alle 2 Wochen am Di­en­stag, Vor­lesun­gen können (auf­grund von Feierta­gen und an­der­er Ter­minkon­flik­te) sowohl am Don­ner­stag als auch am Di­en­stag stat­tfind­en.

Die vorläufige Pla­nung ist fol­gende:
  • Do 15.04. Be­ginn Vor­lesung
  • Di 20.04. Vorbe­sprechung Übung
  • Do 22.04. Vor­lesung
  • Di 27.04. Vor­lesung
  • Do 29.04. Vor­lesung
  • Di 04.05. 1.​ Übung
  • Do 06.05. Vor­lesung
  • Di 11.05. Vor­lesung
  • Do 13.05. Feiertag
  • Di 18.05. 2.​ Übung
  • Do 20.05. Vor­lesung 
  • Di 25.05. Vor­lesung
  • Do 27.05. Vor­lesung
  • Di 01.06. 3.​ Übung
  • Do 03.06. Feiertag
  • Di 08.06. Vor­lesung
  • Do 10.​06.​ Vortrag: Chris­tian Stegbauer: Die Or­gan­i­sa­tion Wikipedia - wie und warum kommt es zur Ko­op­er­a­tion? (Be­ginn 13.00, C205)
  • Di 15.06. 4.​ Übung
  • Do 17.06. Vor­lesung
  • Di 22.06. ---
  • Do 24.​06.​ ---
  • Di 29.06. 5.​ Übung
  • Do 01.07. Vor­lesung
  • Di 06.07. ---
  • Do 08.07. Vor­lesung
  • Di 13.07. 6.​ Übung

Forum

Für diese Ve­r­anstal­tung ex­istiert bei der Fach­schaft ein Forum.

Klausur

Die Klausur find­et am 21.7.2010 um 12:00 Uhr in Raum A1 in S1/01 (Au­di­max) statt.​ Die Bear­beitungszeit beträgt 90 Minuten.​ Als Hil­f­s­mit­tel ist ein handbeschriebenes DIN A4 Blatt (Vorder- und Rück­seite) er­laubt.

 Alte Klausuren:

Top­ics & Slides:

Mo­men­tan ver­linkt sind die Folien der let­zten Ve­r­anstal­tung, die auch dieses Jahr die Basis der Vor­lesung bilden werden.​ Gegen­falls wer­den die Folien je­doch im eini­gen Punk­ten angepaßt oder ergänzt.​ Die mod­i­fizierten Ver­sion wer­den dann die alten Ver­sio­nen er­set­zen (spätestens nach der jew­eili­gen Vor­lesung).

  • In­tro­duc­tion (last up­date: 23.04.10)
    • Web Min­ing Overview
    • The Web, HTTP, HTML, DOM, XPath
    • Data Min­ing Overview
    • Struc­tured, Se­mi-Struc­tured and Un­struc­tured Data
    • Sam­ple Web Min­ing Tasks
  • In­for­ma­tion Re­trieval on the Web (last up­date: 29.04.10)
    • search en­gines & web crawlers
    • doc­u­ment in­dex­ing
    • the vec­tor space model
    • in­vert­ed index
    • per­for­mance mea­sures (re­call & pre­ci­sion)
    • rel­e­vance feed­back
    • es­ti­mat­ing the size of the web
  • Text Min­ing
    • text clas­si­fi­ca­tion (last up­date: 20.05.10)
      • doc­u­ment rep­re­sen­ta­tion
      • in­duc­tion of clas­si­fiers (k-NN, Naive Bayes, SVMs, Rule Learn­ers)
      • Over­fit­ting Avoid­ance
      • Eval­u­a­tion of Clas­si­fiers
      • Mul­ti-La­bel Clas­si­fi­ca­tion
    • fea­ture en­gi­neer­ing (last up­date: 24.05.10)
      • stop words
      • fea­ture sub­set se­lec­tion
      • n-grams
      • stem­ming
      • phras­es
      • la­tent se­man­tic in­dex­ing
    • semi- and un­su­per­vised learn­ing (last up­date: 27.05.10)
      • clus­ter­ing (k-means, bot­tom-up ag­glom­er­a­tive)
      • se­mi-su­per­vised learn­ing (ac­tive learn­ing, self-train­ing, co-train­ing)
  • Struc­ture min­ing (last up­date: 16.6.2010)
    • the Web as a graph
    • hy­per­link-based rel­e­vance rank­ing (hubs and au­thor­i­ties, page rank)
    • hy­per­text clas­si­fi­ca­tion (Naive Method, Hy­per­Class, hy­per­link en­sem­bles)
  • In­for­ma­tion Ex­trac­tion & Wrap­per In­duc­tion (last up­date: 8.7.10)
    • con­ven­tion­al in­for­ma­tion ex­trac­tion (Au­toSlog)
    • struc­tured text (LR-Wrap­pers)
    • se­mi-struc­tured text (Soft­Mealy, WHISK, SRV, RAPI­ER)
  • Web Usage Min­ing (last up­date: 30.06.10)
    • rec­om­mender sys­tems
    • mem­o­ry-based col­lab­o­ra­tive fil­ter­ing
    • mod­el-based col­lab­o­ra­tive fil­ter­ing
    • web log min­ing

Text Books

Ein Großteil des Ma­te­ri­als, das in der Vor­lesung be­han­delt wird (und viel mehr), wird in diesem Buch abgedeckt: Chakrabarti book cover
Einige Teile der Vor­lesung wer­den sich auch an diesem Buch ori­en­tieren: book cover 
Information Retrieval

Ad­di­tion­al Read­ings

Zusätzliche In­for­ma­tio­nen find­en sich in fol­gen­den Re­sourcen:

Kon­takt

Jo­hannes Fürnkranz, Enel­do Loza Mencía

 

 

Kontakt

small ke-icon

Knowledge Engineering Group

Fachbereich Informatik
TU Darmstadt

S2|02 D203
Hochschulstrasse 10

D-64289 Darmstadt

Sekretariat:
Telefon-Symbol+49 6151 16-21811
Fax-Symbol +49 6151 16-21812
E-Mail-Symbol info@ke.tu-darmstadt.de

 
A A A | Drucken | Impressum | Sitemap | Suche | Mobile Version
zum Seitenanfangzum Seitenanfang