Web Min­ing

Data Min­ing im In­ter­net

LVA 20-00-0101-iv im Vor­lesungsverze­ich­nis der TU Darm­stadt, SS 17.​ Zur Übungs­seite.

Auf­grund der gerin­gen Zahl der An­mel­dun­gen wird die Prüfung WS17/18 in mündlich­er Form vo­raus­sichtlich in KW 8 oder 9 stattfinden.​ Die genaue Uhrzeit wird jedem Teil­nehmer rechtzeit­ig über TUCaN mit­geteilt.
Bei Rück­fra­gen melden Sie sich bitte im Sekre­tari­at KE bei Frau Ploch.

Übersicht

Das World-Wide Web ver­schafft jedem In­ter­net-Us­er Zu­gang zu einer stetig wach­senden In­for­ma­tionsfülle, die ohne entsprechende Un­ter­stützung nicht mehr zu überschauen ist.​ Web Min­ing ist eine junge Forschungsrich­tung, die ver­sucht, das Prob­lem mit Hilfe von Tech­niken des Maschinellen Ler­nens und Data Min­ings in den Griff zu bekommen.​ In dieser Vor­lesung wer­den sowohl Grund­la­gen von In­for­ma­tion Re­trieval und Text Clas­si­fi­ca­tion ver­mit­telt, als auch auf die Aus­nutzung der Beson­der­heit­en von Web-Doku­menten (d.​h.,​ ihre Struk­turierung und ihre Ver­net­zung) einge­gan­gen.

An­rech­nung

Diese in­te­gri­erte Lehrver­anstal­tung (4 SWS / 6 CP) ist eine Pflichtver­anstal­tung im Mas­ter­studi­um In­ter­net- und Web-basierte Sys­teme. Im Bach­e­lor- und Mas­ter­studi­um In­for­matik ist sie eine Wahlpflichtver­anstal­tung.

Übun­gen

In den Übun­gen wer­den die Studieren­den prak­tis­che Im­ple­men­tierun­gen einiger der in der Vor­lesung be­han­del­ten Tech­niken er­stellen bzw.​ mit ex­istieren­den Sys­te­men arbeiten.​ Die Teil­nahme an den Übun­gen ist op­tion­al, es können aber Bonus­punk­te für die Klausur er­wor­ben wer­den, allerd­ings nur bei Beste­hen der Klausur.

All­ge­meine In­for­ma­tio­nen zu den Übun­gen und die Auf­gaben find­en Sie auf der Übungs­seite. Alles Weit­ere wird in den Ve­r­anstal­tun­gen mit­geteilt oder an dieser Stelle bekan­nt gegeben.

Zeit­plan

Übung­ster­min ist alle 2 Wochen am Mittwoch, Vor­lesun­gen können (auf­grund von Feierta­gen und an­der­er Ter­minkon­flik­te) sowohl am Don­ner­stag als auch am Mittwoch stattfinden.​ Die Ve­r­anstal­tun­gen find­en jew­eils um 11:40 Uhr in Raum S202/C205 statt.

Die vorläufige Pla­nung ist fol­gende:

Forum

Für diese Ve­r­anstal­tung ex­istiert bei der Fach­schaft ein Forum.

Klausur

Die Klausur find­et am Do 3. 8. 2017, 12-14h im Au­di­Max statt.​ Sie wird vo­raus­sichtlich eine Länge von 90 Min.​ haben.

Zur Prüfung bitte frist­gerecht über TUCaN anmelden.​ Diplom­studierende bitte per Email an unser Sekre­tari­at mit Angabe von Name, Ma­trikel­num­mer und Stu­di­en­rich­tung an­melden.

Die Bear­beitungszeit­en für Web Min­ing Klausuren  be­tra­gen 90 Minuten.​ Als Hil­f­s­mit­tel ist ein handbeschriebenes DIN A4 Blatt (Vorder- und Rück­seite) er­laubt.

Alte Klausuren:

Top­ics & Slides

Unten find­en Sie eine vorläufige Gliederung der Vor­lesung, die dem Stand aus dem let­zten Jahr entspricht.​ Sie wird sukzes­sive angepasst, und ggf.​ die Vor­lesungs­folien durch neuere Ver­sio­nen er­set­zt.

  • In­tro­duc­tion
    • Web Min­ing Overview
    • The Web, HTTP, HTML, DOM, XPath
    • Data Min­ing Overview
    • Struc­tured, Se­mi-Struc­tured and Un­struc­tured Data
    • Sam­ple Web Min­ing Tasks
  • In­for­ma­tion Re­trieval on the Web
    • search en­gines & web crawlers
    • doc­u­ment in­dex­ing
    • the vec­tor space model
    • in­vert­ed index
    • per­for­mance mea­sures (re­call & pre­ci­sion)
    • rel­e­vance feed­back
    • es­ti­mat­ing the size of the web
  • Text Min­ing
    • text clas­si­fi­ca­tion
      • doc­u­ment rep­re­sen­ta­tion
      • in­duc­tion of clas­si­fiers (k-NN, Naive Bayes, SVMs, Rule Learn­ers)
      • Over­fit­ting Avoid­ance
      • Eval­u­a­tion of Clas­si­fiers
      • Mul­ti-La­bel Clas­si­fi­ca­tion
    • fea­ture en­gi­neer­ing (incl.​ new topic word2vec)
      • stop words
      • fea­ture sub­set se­lec­tion
      • n-grams
      • stem­ming
      • phras­es
      • la­tent se­man­tic in­dex­ing
      • word2vec
    • semi- and un­su­per­vised learn­ing
      • clus­ter­ing (k-means, bot­tom-up ag­glom­er­a­tive)
      • se­mi-su­per­vised learn­ing (ac­tive learn­ing, self-train­ing, co-train­ing)
  • Struc­ture min­ing
    • the Web as a graph
    • hy­per­link-based rel­e­vance rank­ing (hubs and au­thor­i­ties, page rank)
    • hy­per­text clas­si­fi­ca­tion (Naive Method, Hy­per­Class, hy­per­link en­sem­bles)
  • In­for­ma­tion Ex­trac­tion & Wrap­per In­duc­tion
    • con­ven­tion­al in­for­ma­tion ex­trac­tion (Au­toSlog)
    • struc­tured text (LR-Wrap­pers)
    • se­mi-struc­tured text (Soft­Mealy, WHISK, SRV, RAPI­ER)
  • Web Usage Min­ing
    • rec­om­mender sys­tems
    • mem­o­ry-based col­lab­o­ra­tive fil­ter­ing
    • mod­el-based col­lab­o­ra­tive fil­ter­ing
    • web log min­ing

Vor­lesungsaufze­ich­nun­gen

In Som­mersemester 2015 haben wir ver­sucht, Aufze­ich­nun­gen der Vor­lesung zur Verfügung zu stellen.​ Das ist ein zusätzlich­es Ange­bot, das aus un­ser­er Sicht den Be­such der Ve­r­anstal­tung nicht ersetzt.​ Insbeson­dere hat die Aufze­ich­nung auch nicht immer prob­lem­los geklappt.

  • Vor­lesung 16.​4.​ (avi)
  • Vor­lesung 23.​4.​ (mp4)
  • Vor­lesung 28.​4.​ (mp4)
  • Vor­lesung 30.​4.​ (Teil1/mp4, Teil2/mp4)
  • Vor­lesung 07.​5.​ (mp4)
  • Vor­lesung 21.​5.​ (mp4)
  • Vor­lesung 28.​5.​ (mp4)
  • Vor­lesung 11.​6.​ (Aufze­ich­nung hat lei­der nicht geklappt, sorry)
  • Vor­lesung 18.​6.​ (mp4)
  • Vor­lesung 2.​7.​ (mp4)
  • Vor­lesung 9.​7.​ (Crash der Aufze­ich­nungs-Soft­ware, sorry)

Text Books

Ein Großteil des Ma­te­ri­als, das in der Vor­lesung be­han­delt wird (und viel mehr), wird in diesem Buch abgedeckt: Chakrabarti book cover
Einige Teile der Vor­lesung wer­den sich auch an diesem Buch ori­en­tieren: book cover  Information Retrieval

Ad­di­tion­al Read­ings

Zusätzliche In­for­ma­tio­nen find­en sich in fol­gen­den Re­sourcen:

Kon­takt

Jo­hannes Fürnkranz, Enel­do Loza Mencía

Kontakt

small ke-icon

Knowledge Engineering Group

Fachbereich Informatik
TU Darmstadt

S2|02 D203
Hochschulstrasse 10

D-64289 Darmstadt

Sekretariat:
Telefon-Symbol+49 6151 16-21811
Fax-Symbol +49 6151 16-21812
E-Mail-Symbol info@ke.tu-darmstadt.de

 
A A A | Drucken | Impressum | Sitemap | Suche | Mobile Version
zum Seitenanfangzum Seitenanfang