Web Min­ing - SS 08

Web Min­ing - Data Min­ing im In­ter­net

LVA 20.0101.1 und 20.0101.2 im Vor­lesungsverze­ich­nis der TU Darm­stadt, SS 08.​ Zur Übungs­seite

Die Klausurergeb­nisse hängen an der Pin­nwand neben Raum S202/E306 aus und sind auch über das We­bReg-Sys­tem aufrufbar.​ Die Klausurein­sicht find­et am Mittwoch, den 3.9.08 von 10-12 Uhr in E302 statt.

Forum

Für diese Ve­r­anstal­tung wurde bei der Fach­schaft ein Forum ein­gerichtet.

An­rech­nung

Diese Vor­lesung ist im Diplom­studi­um In­for­matik dem Bere­ich 3 (An­wen­dung­sori­en­tierte In­for­matik) bzw.​ im Mas­ter­studi­um In­for­matik dem Bere­ich Data and Knowl­edge En­gi­neer­ing zugeordnet.​ Sollten Sie die Vor­lesung In­for­ma­tion Re­trieval bei Thomas Hof­mann be­sucht haben, er­hal­ten Sie auf­grund der großen stof­flichen Überlap­pung für beide Vor­lesun­gen zusam­men nur 5 SWS.

Übersicht

Das World-Wide Web ver­schafft jedem In­ter­net-Us­er Zu­gang zu einer stetig wach­senden In­for­ma­tionsfülle, die ohne entsprechende Un­ter­stützung nicht mehr zu überschauen ist.​ Web Min­ing ist eine junge Forschungsrich­tung, die ver­sucht, das Prob­lem mit Hilfe von Tech­niken des Maschinellen Ler­nens und Data Min­ings in den Griff zu bekommen.​ In dieser Vor­lesung wer­den sowohl Grund­la­gen von In­for­ma­tion Re­trieval und Text Clas­si­fi­ca­tion ver­mit­telt, als auch auf die Aus­nutzung der Beson­der­heit­en von Web-Doku­menten (d.​h.,​ ihre Struk­turierung und ihre Ver­net­zung) einge­gan­gen.

Übun­gen

In den Übun­gen wer­den die Stu­den­ten prak­tis­che Im­ple­men­tierun­gen einiger der in der Vor­lesung be­han­del­ten Tech­niken er­stellen bzw.​ mit ex­istieren­den Sys­te­men arbeiten.​ Die Teil­nahme an den Übun­gen ist op­tion­al, es können aber Bonus­punk­te für die Klausur er­wor­ben wer­den, allerd­ings nur bei Beste­hen der Klausur.

All­ge­meine In­for­ma­tio­nen zu den Übun­gen und die ak­tuellen Übungsauf­gaben find­en Sie hier. Alles weit­ere wird in den Ve­r­anstal­tun­gen mit­geteilt oder an dieser Stelle bekan­nt gegeben.

Zeit­plan

Die vorläufige Pla­nung ist die fol­gende:
  • Do 03.04. Vor­lesung
  • Di 08.04. Vor­lesung
  • Do 10.04. Vor­lesung
  • Di 15.04. Vor­lesung
  • Do 17.04. Vor­lesung
  • Di 22.04. 1.​ Übung
  • Do 24.04. Keine Vor­lesung
  • Di 29.04. Vor­lesung
  • Do 01.05. Feiertag
  • Di 06.05. 2.​ Übung
  • Do 8.5. Vor­lesung
  • Do 15.5. Vor­lesung
  • Di 20.5. Übung
  • Do 22.5. Feiertag
  • Do 29.5. Vor­lesung
  • Di 3.6. Übung
  • Do 5.6. Vor­lesung
  • Do 12.6. Vor­lesung
  • Di 17.6. Übung
  • Do 19.6. keine Vor­lesung
  • Do 26.6. Vor­lesung
  • Di 1.7. Übung
  • Do 3.7. keine Vor­lesung

Klausur

Die Klausur find­et am 4.7.2008 von 16 bis 18 Uhr in Raum 08 im S311 statt, siehe Prüfung­ster­mine In­for­matik Mas­ter. Die Bear­beitungszeit beträgt 90 Minuten.​ Als Hil­f­s­mit­tel ist ein handbeschriebenes DIN A4 Blatt (Vorder- und Rück­seite) erlaubt.​ Für die Klausur ist eine An­mel­dung über das We­bReg-Sys­tem notwendig.

Die Klausur aus diesem Semester:

Alte Klausuren:

Top­ics & Slides:

Mo­men­tan ver­linkt sind die Folien der let­zten Ve­r­anstal­tung, die auch dieses Jahr die Basis der Vor­lesung bilden werden.​ Gegen­falls wer­den die Folien je­doch im eini­gen Punk­ten angepaßt oder ergänzt werden.​ Die mod­i­fizierten Ver­sion wer­den dann die alten Ver­sio­nen er­set­zen (spätestens nach der jew­eili­gen Vor­lesung).

  • In­tro­duc­tion
    • Web Min­ing Overview
    • The Web, HTTP, HTML, DOM, XPath
    • Data Min­ing Overview
    • Struc­tured, Se­mi-Struc­tured and Un­struc­tured Data
    • Sam­ple Web Min­ing Tasks
  • In­for­ma­tion Re­trieval on the Web (Last Up­date: 11.​4.​)
    • search en­gines & web crawlers
    • doc­u­ment in­dex­ing
    • the vec­tor space model
    • in­vert­ed index
    • per­for­mance mea­sures (re­call & pre­ci­sion)
    • rel­e­vance feed­back
    • es­ti­mat­ing the size of the web
  • Text Min­ing
    • text clas­si­fi­ca­tion (Last Up­date: 8.​5.​)
      • doc­u­ment rep­re­sen­ta­tion
      • in­duc­tion of clas­si­fiers (k-NN, Naive Bayes, SVMs, Rule Learn­ers)
      • Over­fit­ting Avoid­ance
      • Eval­u­a­tion of Clas­si­fiers
    • fea­ture en­gi­neer­ing (Last Up­date: 8.​5.​)
      • stop words
      • fea­ture sub­set se­lec­tion
      • n-grams
      • stem­ming
      • phras­es
      • la­tent se­man­tic in­dex­ing
    • semi- and un­su­per­vised learn­ing (Last up­date: 28.​5.​)
      • clus­ter­ing (k-means, bot­tom-up ag­glom­er­a­tive)
      • se­mi-su­per­vised learn­ing (ac­tive learn­ing, self-train­ing, co-train­ing)
  • Struc­ture min­ing
    • the Web as a graph
    • hy­per­link-based rel­e­vance rank­ing (hubs and au­thor­i­ties, page rank)
    • hy­per­text clas­si­fi­ca­tion (Naive Method, Hy­per­Class, hy­per­link en­sem­bles)
  • In­for­ma­tion Ex­trac­tion & Wrap­per In­duc­tion
    • con­ven­tion­al in­for­ma­tion ex­trac­tion (Au­toSlog)
    • struc­tured text (LR-Wrap­pers)
    • se­mi-struc­tured text (Soft­Mealy, WHISK, SRV, RAPI­ER)
  • Rec­om­mender Sys­tems (Last Up­date: 1.​7.​)
    • mem­o­ry-based col­lab­o­ra­tive fil­ter­ing
    • mod­el-based col­lab­o­ra­tive fil­ter­ing

Text Books

Ein Großteil des Ma­te­ri­als, das in der Vor­lesung be­han­delt wird (und viel mehr), wird in diesem Buch abgedeckt: Chakrabarti book cover
Einige Teile der Vor­lesung wer­den sich auch an diesem Buch ori­en­tieren: book cover Information Retrieval

Ad­di­tion­al Read­ings

Zusätzliche In­for­ma­tio­nen find­en sich in fol­gen­den Re­sourcen:

Kon­takt

Jo­hannes Fürnkranz, Enel­do Loza Mencía, Lorenz Weizsäcker

Kontakt

small ke-icon

Knowledge Engineering Group

Fachbereich Informatik
TU Darmstadt

S2|02 D203
Hochschulstrasse 10

D-64289 Darmstadt

Sekretariat:
Telefon-Symbol+49 6151 16-21811
Fax-Symbol +49 6151 16-21812
E-Mail-Symbol info@ke.tu-darmstadt.de

 
A A A | Drucken | Impressum | Sitemap | Suche | Mobile Version
zum Seitenanfangzum Seitenanfang