Level-of-Trust

Die meisten Filter, eigentlich alle, versuchen herauszufinden, wie "schlecht" eine Mail ist. Über IP-Sperrlisten, Wortlisten, ausgefeilte Regeln und andere Lösungsansätze wird bewertet, wie schlecht eine Mail ist, um sie dann als Spam zu behandeln. Dabei lassen die meisten Filterprodukte eine leistungsfähige Option außen vor: Sie honorieren gute Mails. Wenn ein Filtersystem z.B. auch ausgehende "gute" Kommunikation lernt, dann kann eigehende Nachrichten von diesen Kommunikationspartnern positiv bewerten. Das könnten z.B. Antworten auf meine Mails sein, die ich natürlich immer zuverlässig erhalten will. Das könnte aber auch ein effektives Filtern von Quittungen sein, die durch Spamwellen verursacht werden (siehe NDR Spamming). In beiden Fällen ist es wichtig, dass mein Spamfilter meine Kommunikation kennt

Was macht eine Mail aus ?

Natürlich gibt es auch heute schon Filter (z.B.: Bayes), die auch "gute" Mails für ihr Training brauchen und dazu gerne interne Mails oder Nachrichten nach extern. heran ziehen. für einen "Level-of-Trust" schauen wir uns mal an, das so eine ausgehende Mail ausmacht:

  • Betreff / Subject
    Das Besondere beim Betreff ist, dass er beim Mailempfang schon im Header mit enthalten ist und damit sehr früh zur Auswertung kommen kann. Fast alle Antworten auf Mails enthalten den originalen Betreff. Maximal ein "Re", oder ""AW:" o.ä. als Prefix kommen dazu. Es ist zudem sehr unwahrscheinlich, dass ein Spammer "genau" den Betreff erwischt, mi dem ich meine Mail versendet habe.
  • Bestandteile des Body
    Sicher kann man die Mail selbst (Message Body ohne Attachment) ebenfalls für eine spätere Bewertung hernehmen. Schauen Sie, wie oft ein Empfänger mit einem "REPLY" einfach auf die Mail antwortet und seinen Text an den Anfang oder zwischen den Zeilen (entsprechend eingerückt) addiert. Werden z.B. "Sätze" erfasst, dann ist ein Rückläufer mit einem gewissen Anteil identischen Sätzen ein gutes Indiz auf eine Antwort, selbst wenn Sie von einem Stellvertreter gesendet wurde.
  • interner Absender und Empfänger
    Eine sehr starke Bedeutung hat natürlich die Kenntnis, wer mit wem kommuniziert. Wenn ich als Frank Carius einem meiner Kunden eine Mail sende, dann wäre es höchst unangenehm, wenn eine neue Mail des Kunden an mich irrtümlich als Spam abgelehnt wird. Solche Beziehungen sollten also gespeichert werden. Es kann auch interessant sein, solche Partner aus anderen Datenquellen (z.B. Kundendaten der Buchhaltung) in das System einfließen zu lassen
  • Empfänger-Domain
    Der Begriff der Sender und Empfänger kann auch etwas weiter gefasst werden. Nur weil dem Mitarbeiter1 beim Kunden eine Mail sende, kann eine Antwort von seinem Stellvertreter (Mitarbeiter2) auch bei mir ankommen. Insofern ist auch die Kenntnisse, mit welcher Domain ich kommuniziere in abgeschwächter Gewichtung später interessant.
  • Zielsysteme
    In de Moment, in dem mein Server eine "gute" Mail versendet, muss er über den MX-Record Kontakt zum Partnerserver aufnehmen und die Mail übertragen. Insofern kann eine Software Daten zur IP-Adresse, zum Subnetz, aber auch dem HELO-Namen und sogar einem eventuell vorhandenen Zertifikats erhalten. Kann das System später eine Antwortmail eindeutig anhand der anderen Kriterien erkennen, kann an selbst abweichend ausgehenden Mailserver erkennen und lernen.

Sie können sicher ermessen wie interessant es ist, aus den Kommunikationsbeziehungen einer Firma Betriebsdaten für die Verarbeitung von eingehenden Mails zu gewinnen. Es reicht nicht mehr, die "schlechten" zu finden, sondern so können viele erwünschte Mails aus der "False Positive"-Falle zu retten.

Relationen speichern

Natürlich muss man sich je Datenquelle überlegen, wie lange man die entsprechenden Daten speichern will. Ein Betreff wird man sicher eher "kurz" speichern. Zertifikate von Servern könnten bis zu deren Verfallsdatum gemerkt werden. Kommunikationsbeziehungen zwischen Sender und Empfänger vielleicht noch länger. Hier mal eine Auswahl an Relationen, die offensichtlich sind und daher auch einfach erklärt werden können:

  • Sendermailadresse und Empfängermailadresse
    Merkt sich ein System die ausgehenden Nachrichten anhand der Absender- und Empfängeradressen, dann ist dies ein sehr zuverlässiges Kriterium um direkte Antworten auf diese Mails bei eingehenden Verbindungen zu erkennen und entsprechend positiv zu bewerten.
  • Sendermailadresse und Empfängerdomain
    Da eine Mail aber auch von einem Stellvertreter gelesen und eventuell beantwortet wird, ist es durchaus sinnvoll, auch der Domäne einen gewissen Vertrauensbonus zu vergeben. Allerdings sollten hierbei die verschiedenen Freemailer (GMX, Hotmail, Yahoo, Web.de  etc.) natürlich ausgeschlossen werden.
  • Empfängerdomain und IP-Adresse
    Neben der Domäne kann aber auch die IP-Adresse des Zielsystems gespeichert werden. gerade kleinere Firmen nutzen den gleichen Server für Empfang und Versand. Wenn daher eine eingehende Verbindung von der gleichen IP-Adresse oder dem Subnetz gekommen ist. kann dies als starker Hinweis für eine gewünschte Verbindung gedeutet werden.
  • Rückantwort und Mailserver
    Wenn eine Antwort von einem noch unbekannten System eintrifft, dann gibt es zwar keinen Bonus basierend auf den Verbindungsdaten, aber Level-of-Trust kann diese Mail anhand anderer Kriterien als "erwünscht" erkennen. Die Mail darf dann nicht nur passieren, sondern auch der einliefernde Mailserver kann zukünftig einen Vertrauensvorschuss erhalten.

Natürlich gibt es noch sehr viel mehr Kombinationen und Daten, die gespeichert werden können, um die eigene Kommunikation mit Partnern sehr viel sicherer zu machen. Der große Vorteil solcher Relationen ist, dass diese indirekt den Pfad für den Kommunikationspartner öffnen, ohne dass dazu ein Administrator oder ein Benutzer eine "Whitelist" auf dem Antispamsystem pflegen oder eine "Safe Sender"-Liste in Outlook erzeugen und replizieren muss.

Gerade für Firmen kann ein Import anderer Adressdaten in diese Wissensdatenbank interessant sein. Wer von all seinen Kunden die Mailadressen und Domänen heute schon in der Finanzbuchhaltung hat, wird diese Adressen gerne als mögliche erwünschte Absender importieren wollen.

Bonussystem abwägen

Die Bestimmung der Kriterien und Festlegung der Relationen ist nur die halbe Miete. Nicht jede Paarung ist gleich gut und verlässlich. Auch der Faktor "Zeit" kommt hier mit ins Spiel, da Aussagen zu IP-Adressen und Mailservern bei dynamischen Adressen wirkungslos sind, während Sie bei großen Firmen mit getrennten Wegen für Versand und Empfang sogar kontraproduktiv sein können. Auch möchte man natürlich Empfänger oder Domaintrusts nicht ewig vorhalten. Ein "Verlernen" oder Verblassen dieser Daten muss Bestandteil des Systems sein.

Zwar sine RBL-Listen ein sehr starkes Instrument, um Spammer und andere unerwünschte Versender zu blockieren. Allerdings ist auch deren Fehlerrate in manchen Fällen ein Problem. Große Provider können ein Lied davon singen. Wer nun ein Bonussystem in das Rating mit einbezieht, kann die Verbindung trotz Blocklisteneintrag annehmen um zumindest den Envelope anzunehmen. Über den Sender und Empfänger könnten direkte Antworten sehr zuverlässig gefunden werden. Die Wahrscheinlichkeit eines Spammers von außen genau diese Paarung zu treffen ist gering und ein False Positive wurde verhindert.

Auch die Annahme der Verbindung zur Erkennung des Senders anhand eines Zertifikats ist eine Möglichkeit, übereilte Blockaden zu vermeiden. Es ist auch möglich, Teile der Mail anzunehmen um z.B. den Betreff in die Bewertung mit einzubeziehen. Das "kostet" ein paar Bytes Übertragungsvolumen, die aber gut investiert sind. Mit der Möglichkeit einer Überstimmung können sogar diese Blocklisten effektiver genutzt werden, da die damit verbundenen Regeln noch strenger ausgelegt werden können.

Häufig leiden Firmen unter Wellen unerwünschter Quittungen. Dies passiert immer dann, wenn ein Spammer eine fremde Domäne als "Absender" missbraucht in der sicher berechtigten Hoffnung, damit gewisse "Whitelisten" bei den Empfängern zu nutzen. So scheinen Spammer auch gerne "msxfaq.de" als Absenderdomäne zu verwenden, vielleicht weil Administratoren diese Domäne für den sicheren Empfang des Newsletters als "gut" eingetragen haben. Da immer noch sehr viele Firmen Mails erst annehmen und dann eine unzustellbarkeit versenden, müsste ich natürlich die Rückläufer ertragen. Auch hier hilft das Wissen um die ausgehenden Mails, um solche fremden Quittungen zuverlässig auszufiltern.

Die Heranziehung von SenderID oder SPF-Records ist in diesem Zusammenhang nur dann eine gute Ideen, wenn es sich um einen bekannten Absender handelt, den gerade Phishing-Versender sind sehr gut, die korrekten DNS-Einträge diesbezüglich vorzunehmen. Ein Spamschutz ist dies bekanntermaßen nicht.

Gemeinsam stärker ?

In Zeiten von Web 2.0 und Peer2Peer Techniken stellt sich natürlich die Frage, wie dieses Wissen verteilt und global erschlossen werden kann. Technisch ist es denkbar, Teile dieser Datenbasis gemeinsam zu nutzen. Sicher fallen darunter nicht die Informationen über direkte Kommunikationspartner und Domainpartner. Allerdings kann es von Vorteil sein, wenn die Firmen ihr Wissen um legitime ausgehende Mailserver der anderen Firmen untereinander austauschen Die Zuordnungen von Domains zu IP-Adressen könnte aber sehr schnell sehr viel effektiver arbeiten, als bisherige Lösungsansätze wie SPF/CallerID.

Level of Trust und White Lists

Auf den ersten Blick könnte man Level-of-Trust mit einer bequemeren Whitelist verwechseln. Eine klassische Whitelist ist aber eine Regel, die alle anderen Filter übersteuert und Mails von bestimmten Absendern immer passieren Lässt. So kann man sicherstellen, dass jede Mail von diesem (leicht fälschbaren) Absender passieren darf. Level-of-Trust ist keine blinde Whitelist sondern gewichtet eingehende Daten anhand bekannter früherer Kommunikationsbeziehungen und findet gute Mails und nicht nur als gut bezeichnete Absender.

Weitere Links