Mehr als Spam und Viren Auch erwünschte E-Mails brauchen Aufmerksamkeit

Ordnungsmerkmale

erschienen in: <kes> 2004#3, Seite 34

Rubrik: Management und Wissen

Schlagwort: Content-Security

Schlagwort: E-Mail-Management

Zusammenfassung: Viren- und Spamabwehr ist eine wichtige Säule im Umgang mit E-Mail, aber nicht alles. Die sinnvolle Verwaltung der Nachrichten durch zielgerichtete Weiterleitung und Archivierung sind ebenfalls zentrale Herausforderungen bei der Umsetzung von E-Mail-Management-Strategien. Sicherheitsmechanismen können hier auch zur Effizienzsteigerung dienen.

Autor: Von Frank Kresse, Karlsruhe

Mitarbeiter X – siedeln wir ihn in der Support-Abteilung eines großen Unternehmens an – erhält eine Kundenanfrage per E-Mail zugestellt. Dazu kommen Informationen zu früheren Support-Vorgängen, die automatisch aus den CRM-Systemen des Unternehmens extrahiert werden, und die entsprechenden technischen Details aus der Produktdatenbank. Die Anfrage wird gleichzeitig an definierten Ablageorten archiviert. Alles automatisch, natürlich... Dies ist kein Szenario aus ferner Zukunft, sondern ein Beispiel, wie sich das Medium E-Mail schon heute als durchgängiger Geschäftsprozess verstehen und nutzen lässt. Dabei geht es um viel mehr, als die Postfächer möglichst umfassend vor Spam- und Virenbefall zu schützen, auch wenn diese Aspekte derzeit – zu Recht – die Diskussion beherrschen.

[modularer Aufbau bei GROUPs Content-Security-Lösung]
E-Mail-Content-Security ist mehr als reine Spam- und Virenprüfung: An derselben Stelle können Lösungen für die automatisierte Archivierung und Verteilung von E-Mails ansetzen, die für eine effiziente Nutzung der elektronischen Post ebenso wichtig sind.

Dass die Fokussierung auf Spam wesentliche Anregungen zum Konzept des exemplarisch beschriebenen E-Mail-Geschäftsprozesses geliefert hat, soll gerne zugegeben werden: Dreh- und Angelpunkt dabei ist die inhaltliche Klassifizierung elektronischer Post. Wenn der Mailfilter in der Lage ist, Spamtexte zu erkennen und abzufangen, lässt sich im Umkehrschluss das Prinzip auch zur Klassifizierung "guter" E-Mails im Sinne des Content-Based-Routing verwenden. Das ist besonders dann sinnvoll, wenn eine Nachricht ohne genau spezifizierte Empfängeradresse oder Betreffzeile eintrifft. Die Angabe support@... reicht zwar schon aus, um die E-Mail in die richtige Abteilung zu dirigieren, aber dann ist sie immer noch nicht beim zuständigen Mitarbeiter angelangt. Das geht dann nur nach "händischer" Prüfung und Weiterleitung, und dabei entsteht einiger Personal- und Zeitaufwand, besonders wenn das Unternehmen viele Anfragen erhält und Support-Mitarbeiter jeweils nur auf bestimmte Produkte spezialisiert sind.

Automatische Analyse

Die Aufgabe lautet also, die Prüf- und Zustellvorgänge weitgehend zu automatisieren, was uns zurück zur Textklassifizierung bringt, die im Kontext von Spam immer wichtiger wird. Für die inhaltliche Bewertung von elektronischen Dokumenten gibt es heute leistungsstarke Verfahren, die Inhalte nicht nur nach dem Entweder-oder-Prinzip (z. B. Spam/Nicht-Spam) betrachten, sondern auch multiplen Kategorien zuordnen können. Das derzeit "beste" dieser Verfahren nutzt Support Vector Machines (SVM) und liegt beispielsweise der Content-Recognition-Engine-Technologie (CORE) zugrunde, die GROUP Technologies in seiner iQ.Suite für die E-Mail-Inhaltsprüfung verwendet.

Die Fähigkeit, Texte in verschiedene Kategorien einzuteilen, erhalten SVM durch die Repräsentation von Dokumenten als Vektoren und ihre relative Position gegenüber einem Bezugselement. Die Komplexität des Vektors ergibt sich aus den für die Klassifizierung signifikanten Textmerkmalen: Besteht ein Dokument aus den Sätzen "Es brennt" und "Es raucht" – drei Einzelwörter –, so liegt ein Vektor im dreidimensionalen Raum. Bei großen Textmengen entstehen Vektoren in mehrdimensionalen Räumen, die normiert und komprimiert werden, um die Erstellung eines Klassifikators mit vertretbarem Rechenaufwand durchführen zu können. Ein Klassifikator enthält Bezugselemente, die so genannten Support-Vektoren.

Ob ein Dokument einer bestimmten Kategorie angehört oder nicht, wird durch Vergleich des Textvektors des Dokumentes gegen diese Support-Vektoren festgestellt. Sie stellen im mehrdimensionalen Raum so genannte Hyperebenen dar, die die einzelnen Textkategorien optimal trennen. Ein neuer Text wird durch seine Nähe zu den Support-Vektoren klassifiziert: Mithilfe von Schwellwerten lässt sich bestimmen, ab welcher Nähe zu einem Support-Vektor der Text zur betreffenden Kategorie gehört.

Der Vorteil des Verfahrens ist, dass der Klassifikator schon mit einer geringen E-Mail-Referenzmenge angelernt werden kann und neue Texte auf dieser Basis selbstständig erkennt und zuordnet. SVM vermeiden zudem das bei anderen Verfahren auftretende so genannte Overfitting, ein "Übertrainieren" des Klassifikators. Beim Overfitting tritt der Effekt auf, dass nur noch die Trainingsdokumente richtig kategorisiert werden, nicht aber neue Texte.

Mit Bezug auf das eingangs genannte Beispiel aus der Support-Abteilung sieht die praktische Anwendung des Verfahrens so aus: Der E-Mail-Klassifikator wird für die verschiedenen Kategorien trainiert, also für "Anfrage Produkt A", "Anfrage Produkt B" und so weiter. Idealerweise läuft der Lernvorgang auf dem zentralen E-Mail-Server ab, sollte aber auch am Desktop des Bearbeiters durchführbar sein –aus zwei Gründen: Zum einen lassen sich mit individuell erstellten Referenzmengen neue E-Mails noch effizienter bewerten, denn jeder Bearbeiter weiß selbst am besten, welche Anfragen für "sein" Produkt bestimmt sind und welche in andere Support-Zuständigkeiten fallen. Zum andern erlauben Unternehmensrichtlinien und Datenschutzbestimmungen häufig keine zentrale E-Mail-Prüfung, sodass überhaupt nur die dezentrale Klassifizierung möglich ist. Sind die Trainingsvorgänge erfolgreich absolviert, bewertet also der Klassifikator neu eintreffende E-Mails korrekt, dann ist sichergestellt, dass künftige Support-Anfragen ohne manuelle Eingriffe beim richtigen Bearbeiter landen.

Mit Content-Based-Routing ist schon viel in Sachen Effizienzsteigerung beim E-Mail-Management gewonnen. Im nächsten Schritt geht es darum, wichtige Drittsysteme eng mit dem E-Mail-Kreislauf zu verzahnen. Beim erwähnten Support-Szenario kann das so aussehen: Ist nach der Textklassifizierung klar, welchem Produkt/Bearbeiter die Anfrage gilt, dann werden automatisch Prozesse angestoßen, die vorgangsrelevante Informationen extrahieren und der Anfrage-E-Mail beifügen. Das könnten beispielsweise Details zu früheren Support-Vorgängen sein, die für den Absender erledigt wurden, oder technische Informationen zum Produkt, dem die Anfrage gilt. So spart sich der Bearbeiter zusätzlichen Rechercheaufwand und kann sich dem Support-Vorgang wesentlich zielgerichteter widmen. Die technischen Voraussetzungen für die Integration der Drittsysteme zu schaffen (Schnittstellen etc.), ist die große Herausforderung für die Hersteller von E-Mail-Management-Lösungen.

Konsequent archivieren

Neben dem Bewerten und Verteilen (bzw. Blockieren) von Nachrichten nach inhaltlichen Merkmalen wird ein zweiter Bereich für das E-Mail-Management zunehmend wichtiger: die Archivierung elektronisch erstellter Dokumente. Diesbezügliche Rechtsvorschriften sind in jüngster Vergangenheit ständig erweitert worden, etwa in den USA durch den Sarbanes-Oxley Act (SOA, häufig auch: SOX), der die Verantwortlichkeiten von Unternehmen und Wirtschaftsprüfern bei der Bilanzprüfung regelt.

Unternehmen in Deutschland müssen zudem im Rahmen der Zertifizierung nach ISO 9000 Aufbewahrungsfristen auch für E-Mails zwingend einhalten. Viele verlassen sich dabei jedoch ausschließlich auf ihre Mitarbeiter: Werden verschickte und empfangene Nachrichten mit geschäftswichtigen Inhalten im jeweiligen Postfach aufbewahrt, lässt man es damit gut sein. Allerdings vertraut man zu sehr auf das Urteilsvermögen und die Sorgfalt der Angestellten. Wer kann oder will sich im E-Mail-Alltag ständig über die aktuellen Vorschriften auf dem Laufenden halten? Wer macht sich umfassend Gedanken, ob, wie und wie lange die jeweilige Nachricht aufbewahrt werden muss? Dass die lückenlose Verfolgung elektronischer Korrespondenz so mit einem großen Unsicherheitsfaktor verbunden ist, liegt auf der Hand.

Um das zu vermeiden, sind zentrale Ansätze für die E-Mail-Archivierung notwendig. Geschäftsrelevanter E-Mail-Verkehr sollte automatisiert in separate Datenbanken oder Archivsysteme ausgelagert werden können und den eigentlichen Nachrichtenfluss und -bestand möglichst wenig belasten. Die Messaging-Plattform muss dabei in der Lage sein, die E-Mails nicht nur pauschal abzulegen (z. B. "alle ausgehende Post"), sondern auch Funktionen bereitstellen, die Bezüge zu Absender, Empfänger und Speicherort in den Routing-Vorgang einbeziehen können (regelbasierte Archivierung).

In der Praxis könnte das so aussehen: Eine Stelle innerhalb der Messaging-Infrastruktur – die iQ.Suite macht das beispielsweise direkt auf dem Mailserver – erkennt sämtliche "Bewegungen" auf den Mailservern, also jegliche ein- und ausgehenden Nachrichten. Trifft eine E-Mail ein, so wird sie zur Analyse in ihre Segmente zerlegt (Absender, Empfänger, Betreff, Inhalt, Anlagen). Es folgt der Vergleich der Segmente mit dem definierten, zentralen Regelwerk. Gibt es Übereinstimmungen, wird die E-Mail als "aufbewahrungsbedürftig" eingestuft. An dieser Stelle lassen sich sinnvollerweise auch andere Prüfprozesse routinemäßig anstoßen (z. B. Inhalt- und Virencheck). Die Archivierung sollte regelbasiert an verschiedenen Ablageorten und nach eventueller Verschlüsselung erfolgen können. Erst anschließend kann die Nachricht für die Zustellung an den Empfänger bedenkenlos freigegeben werden.

Fallbeispiele

Wie wichtig feste Regeln für die effiziente E-Mail-Archivierung sind, sollen zwei Beispiele verdeutlichen. Das erste betrifft die Kundenkorrespondenz einer Bank: Dabei sollen sämtliche E-Mails nach Filialen geordnet archiviert und für die Revisionssicherheit verschlüsselt werden, Nachrichten an die Zweigstellenleiter hingegen in einem gemeinsamen Archiv landen. Praktisch umgesetzt werden könnte der Archivierungsvorgang auf Basis folgender Regeln:

Das zweite Szenario beschreibt die Korrespondenz eines Herstellers in der Fertigungsindustrie mit seinen Zulieferern. Die Nachrichten sollen verschlüsselt abgelegt werden, ausgenommen solche, die mit bestimmten Zulieferern ausgetauscht werden. Enthalten E-Mails Anhänge mit hohem Datenvolumen (z. B. Konstruktionszeichnungen), sind sie in eine eigene Ablage zu verschieben. Die entsprechenden Regeln sehen so aus:

Die Beispiele zeigen, wie sich verschiedene regelbasierte Teilschritte sinnvoll zu einem durchgängigen E-Mail-Management-Prozess verknüpfen lassen. Neben der entstandenen Revisionssicherheit durch automatisierte, lückenlose Dokumentation der Korrespondenzvorgänge wird dabei eine weitere Klippe umschifft, die Administratoren zunehmend Kopfzerbrechen bereitet: das Storage-Management. Müssen elektronische Dokumente aufbewahrt werden, benötigen sie entsprechenden Speicherplatz, der dann über einen längeren Zeitraum für andere Dateien blockiert ist. Viele Unternehmen unterhalten heute dedizierte Speichernetze, in denen die Storage-Ressourcen gebündelt und mithilfe spezieller Management-Software zugeteilt und verwaltet werden. Diese Vorgänge lassen sich durch die regelbasierte E-Mail-Archivierung wesentlich effizienter gestalten. So können beispielsweise Nachrichten mit großen Dateianhängen grundsätzlich weniger performanten Speichermedien zugewiesen oder nach einer bestimmten Frist dorthin verschoben werden, während schneller (und auch teuerer) Plattenplatz für häufig abgefragte Dateien reserviert bleibt. Im Zusammenspiel mit der Storage-Management-Software lässt sich auch die automatisierte E-Mail-Replikation auf externe Backup-Systeme festlegen, sodass die maximale Verfügbarkeit besonders wichtiger Dateien gewährleistet ist.

Content-Based-Routing und regelbasierte Archivierung sind nur zwei Beispiele, wie sich auf der Basis von E-Mail wichtige Geschäftsprozesse im Unternehmen anstoßen und durchgängig verbinden lassen. Die Kombinationsmöglichkeiten stoßen an keine Grenzen. Ihre Realisierung auch nicht, denn die IT-Infrastrukturen für die verschiedenen Geschäftsprozesse sind in der Regel vorhanden.

Neben der bereits viel diskutierten und für Unternehmen unabdingbaren E-Mail-Sicherheit ist das Thema E-Mail-Management und -Effizienz bisher noch ein sehr weites, von Medien und Herstellern kaum beackertes Feld. GROUP Technologies sieht hier die Zukunft der E-Mail-Kommunikation und gleichzeitig Chancen, um mit Sicherheitssystemen (Analyse, Archivierung) einen zusätzlichen Mehrwert zu verwirklichen.

Frank Kresse ist Vorstand und CTO der GROUP Technologies AG.