Ein Team der kanadischen Concordia-University hat eine Technik entwickelt, um AutorInnen anonymer E-Mails identifizieren zu können – mit einer Sicherheit von 80-90 Prozent, behaupten die ForscherInnen.
Analog zur Einzigartigkeit von Fingerabdrücken (fingerprints) gehen sie davon aus, dass es eindeutig nachweisbare „Schriftabdrücke“ (write-prints) gibt, die AutorInnen charakterisieren. Die Methode sei ausreichend sicher, um gerichtsfeste Beweise liefern zu können.
Mark Schaver beschreibt, dass sowohl Techniken der Spracherkennung als auch Data Mining in die Methode einfließen. Der Artikel des Teams zu ihrer Methode, „Mining writeprints from anonymous e-mails for forensic investigation“, erschien bereits im Oktober in Digital Investigation, umsonst auch hier.
Many criminals exploit the convenience of anonymity in the cyber world to conduct illegal activities. E-mail is the most commonly used medium for such activities. Extracting knowledge and information from e-mail text has become an important step for cybercrime investigation and evidence collection. Yet, it is one of the most challenging and time-consuming tasks due to special characteristics of e-mail dataset. In this paper, we focus on the problem of mining the writing styles from a collection of e-mails written by multiple anonymous authors. (Aus der Einleitung)
Die „effektive neue Methode“ wird in einem Bericht der Universität mit der Notwendigkeit der Geißeln der digitalen neuen Welt begründet: Kinderpornografie, Kommunikation zwischen Kriminellen und Computerviren. Nachdem es mittlerweile zu den üblichen Ermittlungstechniken gehöre, über die IP-Adresse festzustellen, von welchem Ort eine Mail geschrieben wurden, bleibt aber noch offen, wer sie geschrieben hat. Diese Lücke soll mit der neuen Technologie geschlossen werden, die auch in der Lage sein soll, Gender, Nationalität und Bildungshintergrund festzustellen:
To determine whether a suspect has authored the target email, they first identify the patterns found in emails written by the subject. Then, they filter out any of these patterns which are also found in the emails of other suspects. The remaining frequent patterns are unique to the author of the emails being analyzed. They constitute the suspect’s ‘write-print,’ a distinctive identifier like a fingerprint. “Let’s say the anonymous email contains typos or grammatical mistakes, or is written entirely in lowercase letters,” says Fung. “We use those special characteristics to create a write-print. Using this method, we can even determine with a high degree of accuracy who wrote a given email, and infer the gender, nationality and education level of the author.” (Identifying ‚anonymous‘ email authors)
Mir ist wird nicht klar, wo der Unterschied zur bereits üblichen linguistischen Analyse von Texten liegt, ob die nun digital oder analog vorliegen, was ja nicht erst seit gestern in polizeilichen Ermittlungen eingesetzt wird: Erleuchtendes bitte gern in den Kommentaren.
dagegen hilft, sich die satzbausteine aus doktorarbeiten peominenter (Ex)Politiker zu kopieren
Scheint mir wieder ein Produkt der Technikgläubigkeit der Amis zu sein. Dort werden ja auch (in einigen Bundesstaaten, nicht in allen) Ergebnisse von Lügendetektoren bei Gericht anerkannt, oder Computerprogramme verwendet, die die Wahrscheinlichkeit der Schuldigkeit eines Angeklagten ausrechnen sollen.
@freiwild: Wenn ich daran denke, wie die Engländer mit Wahrscheinlichkeiten auf die Nase gefallen sind (http://en.wikipedia.org/wiki/Sally_Clark), ist so ein Programm dringend notwendig (alles, was auf Bayes aufbaut, ist mit Intuition nicht mehr zu erfassen und erfordert mathematische Ausbildung oder wenigstens ein Programm, dass laut „halt!“ schreit).
Das is janz großer Bullshit.
Es würde mir nie in den Sinn komme,, in einer Mail, wo ich mich als Erpresser oute, mich als jemmand anners dazustell’n.
Die Wahrscheinlichkeit, anhand von Schreibmerkmalen eine Person festzustellen, ist allerhöchstens dann eine valide Methode der Autorfeststellung, wenn bekannt ist, wie die betroffene Person unter vergleichbaren Umständen mehrmalig geschrieben hat, und außerdem bekannt ist, dass sie sich nicht verstellt hat und zudem…
kurz: Das bringt nur was, wenn mans eh schon weiß wers war.
@freiwild
Hat wenig mit Technikgläubigkeit zu tun, tatsächlich leicht zu implementierende Verfahren wurden schon vor Jahren publiziert.
@LennStar
„kurz: Das bringt nur was, wenn mans eh schon weiß wers war.“
Zumindest lässt sich ein_e Autor_in mit einer gewissen Menge an Vergleichstexten sehr zuverlässig aus einer Vergleichsgruppe herausfiltern.
Das ist noch lange nicht „das Ende“ von gar nichts. Da machen wir einfach den Gutti und kopieren uns Sätze mit der ungefähren Aussage dessen, was wir zu sagen haben, von irgendwoher in eine leere E-Mail hinein. Schlimmstenfalls war „es“ dann der Urheber des Textes aus dem kopiert wurde. Muss ja niemand sein, den „wir“ leiden können, hähähä…
@Tom
Klar, überprüfe Deinen Vorschlag doch mal praktisch, indem Du Deinen Kommentar noch einmal schreibst. Aber bitte nur mit „Sätzen mit der ungefähren Aussage dessen, was Du zu sagen hast“.
das funktioniert doch nie im leben. schaut doch mal in eure icq/whatever liste und vergleicht wer dort ähnlich schreibt, vom satzbau usw., da findet man dann 5-10 versch. schreibarten (rechtschreibung, kommas, schnell tippen-> „aslo“ statt „also“ o.ä., aber zur identifizierung reicht das doch nie. oder versteh ich die sache falsch?
Noch ist das alles nicht so weit, aus der Conclusion:
„Furthered, human behavior changes from context to
context and from person to person. The need is to develop
methods for capturing style variations for better authorship
results. Addressing language multiplicity is another research
direction. The research of stylometric forensics is still in its
infancy stage. There is still a long way to develop a compre-
hensive, reliable authorship analysis approach before it can be
widely accepted in courts of law.“
Wenn ich die Idee richtig verstehe, geht’s bei der Technik hier vor allem darum, aus einem Set von Emails diejenigen zusammenzusuchen, die wahrscheinlich je von derselben Person geschrieben wurden. Das dann einer Person zuzuordnen ist dann aber sicher noch ein zusätzlich nötiger Schritt (den aber andere Programme mit genügender Vergleichsdatenbasis womöglich übernehmen könnten).
Dass sich da in Zukunft einiges tun wird, ist klar; dass das noch nicht morgen ist, auch…
Irgendwie schade, dass solche eigentlich sehr spannenden Techniken immer auch so riskant in ihrer sozialen Wirkung sind… Pandoras Kiste.
Das, was die machen ist überhaupt nicht neu, sondern simples Text Mining.
Das BKA hat das in dem uns allen bekannten Verfahren auf die simpelste Art und Weise gemacht und sind damit ja auch ziemlich auf die Schnauze gefallen. Für sie hieß linguistische Analyse ja nicht viel mehr als Keywörter zu vergleichen.
Wenn man jetzt jemanden fragen würde, der sich damit auskennt, dann käme folgendes raus:
Er würde automatisiert aus Texten einzelne Parameter extrahieren. Z.B. die durchschnittliche Länge von Sätzen, werden eher Komma statt Punkte gesetzt, typische Rechtschreibfehler, verwendete Wörter und (aussagekräftiger) verwendete Phrasen… Es ergeben sich hunderte Parameter, anhand deren man Texte vergleichen kann. Jede Übereinstimmung in einem Parameter erhöht die Wahrscheinlichkeit dafür, dass die Texte vom selben Autor stammen. Wenn man 100 Parameter auf einmal prüft, viele davon, die dem Autor auch gar nicht als spezifisches Charakteristikum klar sind, dann lassen sich Aussagen mit sehr hoher Wahrscheinlichkeit treffen. Texte, die eine Din A4 Seite lang sind werden sich mit weit über 90 % Wahrscheinlichkeit einem Autor zuordnen. Man kann auf diese Weise z.B. feststellen, welche mg-Schreiben wahrscheinlich vom selben Autor sind. Wenn man jetzt noch Vergleichstexte von dem Autor aus anderen Kontexten hat, dann kann man sie auch einer bestimmten Person zuordnen.
Diese Technik ist schon unheimlich mächtig, z.B. um Bekennerschreiben zuzuordnen. Z.B. könnte man für die RZ-Bekennerschreiben, die ja alle ausführlichere Texte waren, sehr exakt die Anzahl verschiedener Autoren und welches Schreiben vom selben Autor geschrieben wurde, ermitteln. Probleme stellen sich für eine solche Software dort, wo Texte von mehreren Autoren verfasst wurden.
Gerichtsfest möchte ich doch bezweifeln, dem widerspricht schon die behauptete Sicherheit von 80-90 Prozent. Aber auch die Systematik der ganzen Studie die kann man anzweifeln. Der Duktus meiner dienstlichen Emails ist bestimmt sehr einheitlich, Private sehen deutlich anders aus. Bei anonymen Schreiben wird man aber anders ganz an den Text herangehen, und gerade bei argumentativen Teilen auf die Methode Guttenberg zurückgreifen. Kann für Abschreibopfer dann richtig blöd sein (z.B. Verwendung „Gentrification“).
@Marco
Kopierte Teile eines Textes dürften sich mit schon vorhandener Software zur Plagiats-Erkennung wohl recht einfach herausfiltern lassen, wenn die Originale denn vorliegen.
Auch wenn kopierte Originaltexte nicht vorliegen, ließen sich, zumindest bei etwas längeren Texten, auch Abschnitte eines Textes untereinander auf Autorschaft vergleichen.
In entsprechenden Verfahren steckt eine Menge Know-How aus den Bereichen Mathematik, Informatik und Physik, das deutlich über ein Zählen der Verwendung eines Wortes wie „Gentrification“ hinausgeht.
Bayes wurde weiter oben schon genannt, weitere Stichwörter sind z.B. künstliche neuronale Netze oder Entropiekodierung.
Deshalb gilt z.B. das Argument, dienstlich ganz anders zu schreiben als privat, auch nicht zwingend, wenn sich ggf. übergeordnete Muster feststellen lassen, die vielleicht intuitiv für den Menschen gar nicht fassbar sind.
Das Programm wird spätestens in dem Moment sinnlos, in dem es für den Schreiber zugänglich wird (und das wird wahrscheinlich passieren). Der braucht es dann nämlich nur noch mit Texten einer Person zu füttern, die er imitieren möchte, sowie seinen eigenen und dann seinen Droh- oder Sonstwas-Brief so lange zu bearbeiten, bis sich das Programm sicher ist, daß er von der anderen Person geschrieben wurde.
@Michael Butscher
Das ist der springende Punkt, aber eigentlich andersherum betrachtet: Solange kein Zugang zu solch einem System besteht, kann nicht seriös beantwortet werden, wie es überlistet werden kann.
Und wie sollte ein beliebige_r Schreiber_in einer E-Mail einen Text mit einer Software überprüfen können, die in einer konkreten Implementation möglicherweise exklusiv Sicherheitsbehörden zur Verfügung steht?
Schon mal was von DOTA gehört?
Hier gibt es ein leines Programm, was mit DOTA arbeitet: http://www.inhaltsanalyse.de/inhalt/coan.html
Hier noch ein kleines Lexikon: http://www.inhaltsanalyse.de/inhalt/lexikon.html
Ich muss sagen, Textanalyse geht ganz gut, aber mit PING(en) kann auch sehr viel erfahren werden. Beispielsweise die Entscheidungsstruktur oder die Grösse einer anonym schreibenden „Gruppe“. Mit DOTA lässt sich jedoch wunderbar die Dogmatismusintensität von schreibenden Personen feststellen.
Ein kleinen Text aus der Praxis gibt es noch von mir: http://de.indymedia.org/2010/12/297176.shtml