[ Aufmacherfoto ] Schutzschild gegen Spam

Ordnungsmerkmale:

erschienen in: <kes> 2003#1, Seite 6

Rubrik: Management und Wissen

Schlagwort: Spam-Abwehr

Schlagwort-2: technisch

Autor: Von Peter Cox, Middlesex (UK)

Zusammenfassung: Die Menge unerwünschter Werbe-E-Mails, gemeinhin als Spam bezeichnet, ist im Jahr 2002 laut Berichten vieler großer ISPs bereits auf 30 bis zu 50 Prozent des Nachrichtenverkehrs angestiegen. Spam ist damit nicht mehr länger nur lästig, sondern eine ernsthafte Bedrohung der Produktivität in Sachen E-Mail. Simple Filtermechanismen können nur wenig helfen, zwei neue Ansätze versprechen jedoch wesentlich effektivere Resultate.

Warum gibt es eigentlich so viel mehr Spam als konventionelle Werbung? Nicht immer gehorcht die virtuelle Welt denselben Gesetzmäßigkeiten wie die reale: Werbefluten in "richtigen" Briefkästen kosten ihre Absender "richtig" Geld – schließlich müssen sie erst entworfen und gedruckt und dann mühsam von Hand verteilt werden. Personalisierung und Feedback-Möglichkeiten treiben die Kosten weiter in die Höhe. Für den Empfänger sind die Papierberge zwar lästig, aber leicht zu erkennen und zu entsorgen; ein kleiner Aufkleber kann sie womöglich schon weitgehend stoppen.

Spam ist hingegen billig für den Versender und teuer für den Empfänger. Ruckzuck zusammengeschrieben und (über fremde Systeme) an Zigtausende Adressen verschickt, kosten Werbe-Mails fast nichts. Personalisierte Anschreiben und Rückmelde-Links bedeuten nur relativ wenig Mehraufwand. Da Spammer nach Antwortraten bezahlt werden, haben sie zudem ein großes Interesse, ihre Nachrichten möglichst vielen Menschen zukommen zu lassen. Neben gigantischen Datenbanken kommen automatisierte Tools zur Adresssuche in Webseiten zum Einsatz. Selbst "Brute-Force"-Methoden, die einfach alle denkbaren und undenkbaren Adressen ausprobieren, sind nicht selten. Da keine etablierten Firmen oder Marken beworben werden und sich die Spuren im Netz leichter verlieren, ist die elektronische Werbung zudem erheblich agressiver als im klassischen Umfeld.

Durch die Gleichförmigkeit elektronischer Nachrichten und die oft große Menge erwünschter E-Mails, fällt es am Arbeitsplatz meist sehr schwer, die Spreu vom Weizen zu trennen. Spam ist normalerweise von geringem oder keinem Interesse für den Empfänger – doch das muss er erst einmal erkennen. Gerade während der Arbeitszeit könnte zudem die Bereitschaft, sich ablenken zu lassen und – aus reiner Neugier, nicht aus Kauflust – doch einmal auf einen Werbe-Link zu klicken, größer sein als Zuhause. Zumal die Angebote häufig eine Kuriosität aufweisen, die geradezu ans Abstruse grenzt. Sie bewegen sich von Wunderdrogen und Unterhaltungselektronik über "Entschuldungs"-Kredite und Versicherungsangebote bis hin zu Programmierdienstleistungen sowie natürlich unzähligen pornografischen und Partnervermittlungs-Angeboten.

----------Anfang Textkasten----------

Begriffe

Spam
Durch einen Sketch der britischen Komikertruppe Monty Python (siehe [5]) avancierte Spam vom geschützten Markennamen für amerikanisches Frühstücksfleisch in Dosen ("Hormel's Spiced Ham", www.spam.com) zunächst zum Synonym für unangebrachte und irrelevante Nachrichten in Usenet-News-Foren, später dann zum Begriff für unerwünschte oder massenhaft ausgesandte E-Mail-Nachrichten oder Massenwerbung in elekronischen Medien [6].
Ham
Das englische Wort für "Schinken" verspricht, gegenüber dem zerkleinerten und gekochten Dosenfleisch Spam, der "wahre Jakob" zu sein und dient daher gelegentlich im Hacker- oder Computer-Jargon als Begriff für erwünschte E-Mails.
UCE
Unsolicited Commercial E-Mail: Unerwünschte Werbe-Nachrichten, unabhängig von der ausgesandten Menge.
UBE
Unsolicited Bulk E-Mail: Unerwünschte Massensendung, unabhängig vom werblichen Charakter.

----------Ende Textkasten----------

Klassische Filterprobleme

Während Spam-Versender von den Automatisierungsmöglichkeiten der elektronischen Welt profitieren, gestaltet sich eine automatisierte Spam-Abwehr recht schwierig. Anti-Spam-Technik ist zwar nicht neu; sowohl als dedizierte Spam-Control-Software als auch innerhalb von E-Mail Policy Management Systemen sind zahlreiche Produkte auf dem Markt. Allerdings benötigt der größte Teil davon entweder kontinuierliche Betreuung oder kann den Spam schlicht nicht meistern. Die weitaus meisten Produkte basieren auf der relativ simplen Technik, E-Mails entweder nach ihrer Herkunft oder ihrem Inhalt zu filtern. Obwohl man damit die Masse an Spam reduzieren kann, gelangt dennoch ein beträchtlicher Anteil in die Mailboxen der Endanwender. Darüber hinaus führen einfache Filter üblicherweise zu einer erheblichen Zahl von Fehlkategorisierungen (False Positives), sodass erwünschte E-Mails fälschlich als Spam aussortiert werden und ihren Empfänger verzögert oder gar nicht erreichen.

Spammer benutzen normalerweise keine beständigen und gültigen Absenderadressen. Spam-Filter, die den Ursprung einer E-Mail auswerten, konzentrieren sich daher bei eingehenden Nachrichten entweder auf die IP-Adresse oder den Domain Name der eingehenden SMTP-Verbindung. Der "Einlieferer" wird mit einer Liste bekannter Spam-Quellen verglichen. Solche Listen lokal zu unterhalten, bedeutet einen immensen Administrationsaufwand. Viele Anwender nutzen daher zentral verwaltete – eventuell kostenpflichtige – Real-Time Black Lists (RBLs), die bekannte Spam-Quellen verzeichnen. Dazu gehören vor allem Open Relays: Mail-Server von Dritten, die aufgrund ihrer Konfiguration (absichtlich oder unachtsamerweise) Spam-Versendern ermöglichen, E-Mails zu verbreiten. Auch Dial-Up Accounts landen in den Listen.

Eine effektive Spam-Kontrolle gewährleisten RBLs nicht: Einerseits stoppen sie nicht genug Werbe-Mails, da auch die Spammer selbst um ihre Existenz wissen und somit genau wie jeder andere in der Lage sind, sie zu nutzen. Schließlich wollen Spam-Versender sichergehen, dass ihre Nachrichten ankommen: Sie suchen daher ununterbrochen nach neuen Mail-Relays und vermeiden die "angeschwärzten" Server. Es gibt sogar Spam, der ganz offen für aktuelle Listen von Open Relays wirbt (vgl. Abb. 1).

Subject: Open Relays - we have lots of them

Sick and tired of always looking for good open relay mail servers?
Your search stops here. We get thousands of good ones every day and 
they're checked every hour. No more scanning dead lists of thousands 
only to find a small handful of good working open relay mailservers. 
Now you can get them delivered to your inbox every day for only $25 
/month.

Abbildung 1: Spam für Spammer bewirbt Open Relays

Ein weiteres Problem mit RBLs ist, dass sie auch erwünschte E-Mails blockieren: Denn sie klassifizieren Mail-Server aufgrund ihrer Konfiguration als Open Relay und nicht danach, ob von dort aus tatsächlich Spam ausgeht oder nicht. RBL-Befürworter argumentieren, dass korrekt konfigurierte Mail-Server ja nicht in den schwarzen Listen landen – System-Administratoren und Site-Betreiber sollten halt dafür sorgen, dass ihre Server keine Schlupflöcher für Spammer bieten. Ganz so einfach ist es hingegen nicht: Tatsächlich kann man bereits in der Black List landen, nur weil der eigene ISP unaufmerksam war oder man per DSL mit dem Internet verbunden ist (einige RBLs verzeichnen DSL-IPs in ihrer Dial-up-Datenbank).

Black Lists bieten demzufolge kein ausreichend abgestimmtes Instrumentarium zur effektiven Spam Kontrolle. Somit könnte eine inhaltsbezogene Überprüfung (Content Filtering) als die bessere Lösung zur Identifikation von Spam erscheinen. Unglücklicherweise bereitet jedoch auch das Durchsuchen von E-Mails nach Schlüsselwörtern Probleme: Content Filtering erfordert ebenfalls eine kontinuierliche Administration und liefert zu viele Fehleinschätzungen. Spammer kennen zudem Möglichkeiten, um einfache Inhaltsfilter auszutricksen.

Subject: TODO be young

As seen on NBC, CBS and CNN, and even Oprah! The health discovery that 
actually reverses aging while burning fat, without diet or exercise! 
This proven discovery has even been reported by the New England Journal 
of Medicine. Forget aging and dieting forever! And its ...

Abbildung 2: Wunderdrogen-Spam – angezeigter Text

Auch bei Nachrichten, die auf den ersten Blick (s. Abb. 2) leicht zu filtern sein müssten, steckt der Teufel oft im Detail. Scheinbar sollte beispielsweise eine Suche nach "The health discovery that actually reverses aging" solche E-Mails erfassen können. Diese Spam-Nachricht wurde jedoch im HTML-Format übermittelt. Bei genauerem Hinsehen enthält der eigentliche Nachrichtentext (s. Abb. 3) "unsichtbare" HTML-Kommentare und Steuerzeichen (hier in grau notiert), die ein einfaches Filtern wirkungslos machen.

<br>Subject: TODO be young<br>As s<!-- 5 -->een
on NB<!-- D -->C, CBS and C<!-- H -->NN, and even 
Opr<!-D -->ah! The health<br>disco<!-- F --> very 
that actually reverses agi<!-- test -->ng while burning 
f<!-boy -->at, without diet or exer<!-- TODO -->cise! 

Abbildung 3: Wunderdrogen-Spam – tatsächlicher (Quell-)Text

Neue Ansätze

Einfache Filterfunktionen im Hinblick auf Ursprung und Inhalt einer E-Mail können zwar einige unerwünschte Nachrichten abfangen, liefern alleine jedoch keine befriedigende Lösung. Um Spam wirklich effektiv zu begegnen, bedarf es anderer Ansätze. Im Katz-und-Maus-Spiel zwischen Spammern und Spam-Control sind Ideen gefragt, die ebenso einfallsreich sind wie Spam-Versender beim Umgehen von Spam-Kontrollen.

Zwei Techniken, die ausgesprochen effektive Resultate versprechen, sind der Einsatz eines Distributed Checksum Clearinghouse (DCC) und die Statistical Token Analysis (STA). Beide Verfahren zeichnen sich durch einen geringen Administrationsaufwand aus und erzielen hervorragende Anti-Spam-Ergebnisse: Bei einer signifikant niedrigen Falschmeldungsrate weisen sie nahezu 100 Prozent Spam ab.

Distributed Checksum Clearinghouse

Streng genommen entdeckt das Distributed-Checksum-Clearinghouse-Verfahren [1] nicht nur Spam, sondern allgemein massenhaft versandte E-Mails (Bulk Mails). In einem DCC-Verbund ermittelt die Anti-Spam-Software zu jeder eingehenden E-Mail eine spezielle Prüfsumme und sendet diese an einen Server (Clearinghouse). Dieser antwortet mit der Angabe, wie oft diese Mail-Prüfsumme bereits registriert wurde und erhöht gleichzeitig den entsprechenden Zähler. DCC-Server tauschen wiederum untereinander entsprechend den Vorgaben ihrer Betreiber Daten über Bulk Mails aus.

Der anfragende DCC-Client (Mail-Server oder -Client) erhält als Antwort ein verlässliches Maß für die Zahl der teilnehmenden Mail-Server, bei denen dieselbe Nachricht eingegangen ist. Eine E-Mail mit einem hohen "bulk count", also entsprechend hoher Verbreitung, ist entweder Spam oder eine Nachricht aus einer populären Mailing-Liste. Für letztere führt das DCC eine Freigabeliste (White List), um ihre Nachrichten zu identifizieren. Jede massenhaft versandte E-Mail, die nicht durch einen solchen White-List-Eintrag legitimiert ist, kann mit hoher Sicherheit als Spam klassifiziert werden.

Entscheidend für das Funktionieren von DCC ist der Gebrauch von "Fuzzy Checksums": Normalerweise sind Prüfsummenalgorithmen derart konstruiert, dass sie ein völlig anderes Ergebnis liefern, sobald sich auch nur ein Bit in der zugehörigen Nachricht ändert. Da Spam-Versender häufig zufällige Komponenten in ihre Mails einbauen, um einer Kategorisierung zu entgehen (vgl. Abb. 4) oder Nachrichten zu personalisieren, benötigt DCC eine andere Art von "Fingerabdruck", bei dessen Erstellung bestimmte Teile der Nachricht unberücksichtigt bleiben. Diese "unscharfen" Prüfsummen sind so angelegt, dass sie für E-Mails mit gleicher Aussage dasselbe Ergebnis liefern und zufällige Anteile möglichst unberücksichtigt lassen.

Click here to unsubscribe: evttcsxwrwrhnjogfatsbxpgkid

Click here to unsubscribe: wxxprsqrcmthbvfwepxmsdvambrpjghnpxv

Abbildung 4: Durch zufällige Variationen in ihren Nachrichten, wie hier im "unsubscribe footer", versuchen Spam-Versender, einer Kategorisierung per Prüfsumme zu entgehen.

Die letztendliche Kontrolle, ab welchem Schwellwert eine Nachricht als Spam zu kategorisieren ist und wie dann damit verfahren werden soll, bleibt bei DCC dem Client überlassen: Im Zusammenspiel mit Sendmail (oder bis zu einem gewissen Grad anderen Mail-Diensten) können E-Mails beispielsweise abgewiesen, markiert oder einfach nur protokolliert werden. DCC-Client- und -Server-Komponenten sind als freie Software für Unix-Umgebungen (AIX, BSD, HP-UX, Linux, Solaris usw.) als Source-Code im Internet erhältlich [1]. In den Webseiten und Manual-Pages findet man auch eine weitergehende Diskussion über den Umfang des notwendigen Datenaustauschs sowie den damit verbundenen Datenschutz- und Sicherheitsaspekten.

[Illustration]
Die statistische Auswertung einiger DCC-Server legt nahe, dass Spam bei Kunden von US-ISPs ein gößeres Problem ist als bei europäischen Providern (Auswertung für Januar 2003, Quelle: [1]).

Statistical Token Analysis

Ein anderer Ansatz zur Spam-Klassifizierung ist die Statistical Token Analysis (STA) per Bayes'schem Filter [2]. Sie versucht, durch Analyse von E-Mail-Bruchteilen mithilfe von Frequenzwerten und statistischen Vergleichen zu entscheiden, ob es sich bei der Nachricht um Spam oder eine legitime E-Mail handelt. Als Token dienen Wörter und charakteristische Zeichenfolgen (z. B. "color=red>" aus HTML-Mails), die durch Leerzeichen getrennt sind.

Statistical Token Analysis (STA) basiert im Wesentlichen auf zwei Häufigkeitstabellen: eine für Spam, die andere für Ham (umgangssprachlich für erwünschte E-Mails). Diese Tabellen ergeben sich aus der detaillierten Analyse einer großen Zahl von klassifizierten Nachrichten beider Kategorien. Sie umfassen sämtliche Token und ihre Häufigkeit, mit der sie entweder in analysiertem Spam oder Ham aufgetaucht sind. Abbildung 5 zeigt einige stark vereinfachte Beispiele von Spam- und Ham-Häufigkeitstabellen.

Spam Frequency Table Ham Frequency Table
debt 80 website 65
elimination 79 order 64
paycheck 79 invoice 59
scary 75 proposal 51
color=red> 74 update 43

Abbildung 5: Vereinfachte Spam- und Ham-Häufigkeitstabelle für die Statistical Token Analysis (STA)

Zur Klassifizierung einer Nachricht spaltet man sie in Token auf und ermittelt für jedes Token aus den beiden Tabellen den Spam- und Ham-Wert. Ein statistischer Vergleich der Token-Menge mit dem höchsten Spam-Häufigkeitswert mit der (abweichenden) Menge der Token mit dem höchsten Ham-Wert liefert dann einen Wahrscheinlichkeitswert, dass es sich bei der vorliegenden Nachricht um Spam handelt. Bei nahezu 100 % erscheinen praktisch alle Token in der Spam- und fast keines in der Ham-Tabelle – bei um die 1 % ist es umgekehrt. Die Erfahrung hat dabei gezeigt, dass die Mehrzahl der analysierten Nachrichten mit hoher Wahrscheinlickeit als Spam oder Ham einzuordnen sind; eine annähernde Gleichverteilung der Spam-/Ham-Werte tritt nur relativ selten auf.

We know how scary debt can be.

Our Debt Elimination program can help you become debt free quickly. 
Stop harrassing calls from collectors, stop living from paycheck to 
paycheck, and begin to build a stress-free future. 

Abbildung 6: Anhand der vereinfachten STA-Tabellen (Abb. 5) würde diese Nachricht klar als Spam kategorisiert werden, da viele ihrer Token hohe Werte in der Spam-Tabelle aufweisen, aber keines einen hohen Ham-Wert erreicht.

Fazit

Ein enormer Vorteil der beiden vorgestellten Verfahren DCC und STA liegt in ihrem geringen Administrationsaufwand. Einmal installiert arbeiten beide weitgehend ohne menschliche Intervention. Paul Graham hat auf seinen Webseiten [2] beschrieben, dass seine Test-Implementierung eines Bayes'schen Filters binnen Monatsfrist von rund 1750 Spam-Mails nur vier nicht erkannt hat; gleichzeitig gab es drei "False Positives". Graham beschreibt in zwei ausführlichen Seiten STA-Methoden und verweist in einer Link-Sammlung [3] auf frei erhältliche Bayes'sche-Filter-Software.

Sowohl für STA als auch DCC gibt es einiges an freier Software, aber bisher relativ wenig kommerzielle Implementierungen. Eine davon steckt in der MXtreme Appliance von BorderWare Technologies, die traditionelle Filtermethoden mit STA und DCC kombiniert. Bei einem Test mit einem so genannten Honey Pot Account (vgl. Abb. 7) konnte während eines zehntägigen Versuchszeitraums bei 190 eingehenden Spam-Mails nur eine einzige Nachricht "unerkannt" durchrutschen.

[Illustration]
Abbildung 7: Unerwünschte Nachrichten sind in diesem Eingangsordner von einer BorderWare MXtreme Mail Firewall im Subject als Spam- oder Bulk-Mail gekennzeichnet worden – andere Konfigurationsoptionen sehen das Abweisen von Spam oder eine Quarantäne vor.

Peter Cox ist International Vice President der BorderWare Technologies Inc.

Literatur

[1]
Rhyolite Software, Distributed Checksum Clearinghouse, [externer Link] www.rhyolite.com/anti-spam/dcc/
[2]
Paul Graham, A Plan for Spam, [externer Link] www.paulgraham.com/spam.html
[3]
Paul Graham, Bayesian Spam Filters (Links), [externer Link] www.paulgraham.com/filters.html
[4]
SPAM Conference 2003, Proceedings and Webcasts, MIT/Cambridge (US), [externer Link] www.spamconference.org
[5]
SPIEGEL ONLINE – Netzwelt, Spam, Spam, Spam, Spam, Spaaaaam! (2), [externer Link] www.spiegel.de/netzwelt/netzkultur/0,1518,225328-2,00.html
[6]
Free On-Line Dictionary of Computing, Spam, [externer Link] http://foldoc.doc.ic.ac.uk/foldoc/foldoc.cgi?query=spam