Seminar on Spam Filtering - SS 05

Lehrveranstaltung 20.410.4 im TUD Vorlesungsvorzeichnis

Die Seminar-Noten hängen - soweit ich die Ausarbeitungen bereits erhalten habe - vor E304 aus.

Inhalt

In diesem Seminar werden verschiedene Aspekte im Zusammenhang mit Spam Mail Filtering besprochen. Das Spektrum wird dabei Bereiche wie Spamming-Techniken, adaptiven Spam-Filter, bekannte Spam-Filter Pakete, Evaluierung von Spam-Filtern, rechtliche Aspekte usw. abdecken.

Die einzelnen Themenbereiche werden von den Teilnehmern aufbereitet, in einem ca. 45-minütigen Kurz-Vortrag (30 min Vortrag, 15 min Diskussion) präsentiert und schriftlich ausgearbeitet.

Es wird erwartet, daß Sie die Vorträge mit Slides begleiten. Falls Sie keinen Laptop haben, bitte mir die Slides rechtzeitig zu senden, damit ich sie auf meinem Laptop einspielen bzw. testen kann. Die Vorträge und/oder Slides können wahlweise auf Deutsch oder Englisch gehalten werden.

Benotung

In die Gesamtnote fließen die Ausarbeitung des Vortrags (Folien und schriftliche Ausarbeitung), die Präsentation, die Beantwortung von Fragen zum Vortrag, sowie die aktive Teilnahme an der Diskussion bei den Vorträgen anderer ein.

Vorbereitungsgespräche:

Falls Sie das wünschen, können wir uns in der Woche vor Ihrem Vortrag (Montag vor Ihrem Vortrag ist zu spät) über Ihre Präsentation unterhalten. Dazu sollten Sie mit einem mehr oder weniger fertig ausgearbeiteten Vortrag kommen, den wir dann kurz durchbesprechen, bzw. versuchen eventuelle Fragen zu klären.

Termine können wir frei vereinbaren, düblicherweise freitags.

Hardware:

Falls Sie die Folien von meinem Laptop aus präsentieren wollen, ist das kein Problem, aber Sie sollten mir die Folien rechtzeitig schicken (ansonsten gehe ich davon aus, daß sie Ihr eigenes Gerät mitbringen). Open Office, Powerpoint, und PDF sind kein Problem, alles andere nach Rücksprache.

Termine

jeweils Dienstag, 16:15 - 17:55, Raum S2/02|A102.

  • 19.4. Vorbesprechung
  • 3.5. Einführung
    Einführung in das Problem
    Spamming Techniques (Sebastian Blume)
  • 10.5 Machine Learning Ansätze 1: Bayesian Filtering
    Graham's filter, bogofilter (Charles Wijaya)
    Spam Bayes (Arne Pottharst)
  • 17.5. Machine Learning Ansätze 2
    CRM 114 (Maryam Zadmajid)
    Memory-Based and Other Machine Learning Techniques (Christian Stöhr)
  • 24.5. Kollaborative Ansätze 1
    Peer-to-Peer Spam filtering (Gregor Mitsch)
    Social Networks (Christian Zimmer)
  • 31.5. Kollaborative Ansätze 2
    Detecting Near-Duplicate Messages (Simon Kulessa)
    DCC, Razor, Pyzor (Andreas Göb)
  • 7.6. Integrative Ansätze
    Multi-faceted Systems (Jens Liebau)
    Spam Assassin (Christian Hett)
  • 14.6. Juristische und wirtschaftliche Aspekte
    Legal Aspects (Daniel Szallies)
    Economic Approaches (Jacqueline Vogel)
  • 21.6. Ökonomische Ansätze
  • Pricing via Processing (Thomas Jajeh)
    The Penny Black Project (Andreas Kothe)
  • 28.6.Erkennen beim Sender
    Stopping Outgoing Spam (Darius Gasiorek)
    Sender Identification (Oliver Staudt)
  • 5.7. Evaluierung von Spam Mail Filtern
    Spam Mail and E-mail Corpora (Sebastian Frischbier)
    Evaluating Spam Filters (Thomas Widjaja)

Materialien

Die unten angegebenen Artikel und Web-links dienen als erste Anhaltspunkte, jedoch wird erwartet, daß sich die Vortragenden auch weiterführende Referenzen und Informationsquellen ansehen.

Überblick

Grundlegende Materialen, die sich alle ansehen sollten.

Understanding the Problem

Erste Einführung in das Problem, mit Schwerpunkt auf die Herausforderung für KDD.

Spamming Techniques

Welche Tricks verwenden Spammer eigentlich?

Paul Graham's Filter

Ein einfacher adaptiver Spam-Filter, der auf Ideen aus Bayes'schen Filtern basiert, und bei vielen Open Source Projekten (insbesondere Mozilla und Thunderbird) als Basis verwendet wird.

Spam Bayes

Spam Bayes ist eine Bayesian Spam Filtering System, das auf Graham's Algorithmus basiert, aber etliche Verbesserungen von Gary Robinson und anderen enthält.

CRM 114

CRM114 basiert auf einer Technik namens Sparse Binary Polynomial Matching und nimmt für sich ausgesprochen hohe Genauigkeiten in Anspruch.

Machine Learning Techniques

Verschiedenste Maschinelle Lern-Techniken wurden bereits für diese Aufgabe untersucht. Die folgenden beiden Arbeiten sind nur eine kleine Auswahl.

Peer-to-Peer Spam Filtering

Ansätze zum verteilten E-mail Filtering.

Social Networks

Die folgenden Arbeiten konzentrieren sich auf soziale Netzwerke, die durch das Senden und Empfangen von E-mails entstehen.

Detecting Near-Duplicate Messages

Kollaborative Ansätze müssen sich darauf verlassen, daß man Duplikate (also identische oder in wesentlichen Punkten identische) Nachrichten erkennen kann. Das ist ein nicht triviales Problem.

Collaborative Spam Filtering Systems

Ein Kurzüberblick über die wichtigsten Systeme, die auf einen kollaborativen Ansatz setzen.

Multifaceted Systems

Viele Systeme setzen auf eine offene Architektur, und die Integration vieler verschiedener Komponenten.

Spam Assassin

Spam Assassin ist eine offenes Spam-Bekämpfungs-System, das verschiedene Techniken miteinander zu integrieren versucht. Geben Sie einen Überblick über dieses System in allen seinen Komponenten.

Legal Aspects of Spam Filtering

Erarbeiten Sie eine kurze Präsentation über die Anti-Spam Gesetze verschiedener Länder, insbesondere natürlich EU und USA.

Economic Solutions

Eine Grundvoraussetzung für Spamming ist, daß das Senden vom Spam Mails billig ist. Könnte man die Kosten dafür erhöhen, wäre Spamming nicht mehr rentabel.

Pricing via Processing

Hier wird dem Sender Rechenzeit zur Lösung einfacher kombinatorischer Aufgaben abverlangt, mit der Idee, daß das für einzelne Sender ein vertretbarer Aufwand ist, für Spammers aber nicht.

The Penny Black Project

Ein Microsoft Projekt, das der Idee Pricing via Processing gewidmet ist.

Stopping Outgoing Spam

Während die meisten Ansätze darauf abzielen, Spam Mails beim Empfänger zu erkennen, gibt es einige Ansätze, die versuchen, das Problem auf der Seite des ISPs zu lösen.

Sender Identification

Es gibt verschiedene Vorschläge, die eine verläßliche Identifizierung des Absenders von E-mails zum Ziel haben.

Spam Mail and Other E-mail Corpora

Beschreiben Sie existierende Spam-Mail Corpora, wie sie erstellt wurden, ihre Charakteristika, Vergleiche anstellen, etc.

Evaluating Spam Filters

Wie sollen Spam Filter evaluiert werden?
Johannes Fuernkranz
Last modified: Thu Apr 28 21:44:17 CEST 2005
Kontakt

small ke-icon

Knowledge Engineering Group

Fachbereich Informatik
TU Darmstadt

S2|02 D203
Hochschulstrasse 10

D-64289 Darmstadt

Sekretariat:
Telefon-Symbol+49 6151 16-21811
Fax-Symbol +49 6151 16-21812
E-Mail-Symbol info@ke.tu-darmstadt.de

 
A A A | Drucken | Impressum | Sitemap | Suche | Mobile Version
zum Seitenanfangzum Seitenanfang