Hallo, hiermit werden Sie darüber informiert, dass wir in einer ihrer Filialen ein Sprengsatz deponiert haben. Wir vordern eine 1.000.000 € in Bar.

Tausende von Erpresser- und Drohbriefen, Verleumdungen und Bekennerschreiben werden jährlich versandt, manche holprig, andere geschliffen formuliert, aber alle anonym. Das Spektrum übelwollender Autoren reicht von bösartigen Nachbarn über kriminelle Profis bis zu terroristischen Gruppen. Und die Schriftform hilft, Spuren zu vermeiden: Damit der Oberbulle unsere Stimmen nicht auf Band nehmen kann gehen alle anweißungen Schriftlich an Sie.

Bei schweren Verbrechen landen anonyme Texte im Kriminaltechnischen Institut des Bundeskriminalamts in Wiesbaden. Dort untersucht Sabine Schall gemeinsam mit ihren Kollegen jährlich Hunderte von Schreiben auf Hinweise, die zu den Autoren führen könnten. Ihr Fachgebiet ist die forensische Linguistik: So wie Techniker Geschosse analysieren, nehmen forensische Linguisten das "Tatwerkzeug" Sprache unter die Lupe, um daraus Hinweise auf den Autor zu gewinnen. Dabei geht es nicht um Zettel mit aufgeklebten Zeitungsbuchstaben – die gibt es außer im Krimi nur ganz selten. Die Linguisten konzentrieren sich auf Wortschatz, Satzbau, grammatische Formen, Orthografie oder Interpunktion. Für die Analyse von Handschriften, Papiersorten, Druckermerkmalen oder Datenspuren aus dem Internet sind andere Abteilungen des Kriminaltechnischen Instituts zuständig.

Zwar ebnet die Schriftsprache viele dialektale Besonderheiten ein. Trotzdem liefern die Dokumente oft genug Hinweise auf die Region, auf das Alter oder auf den Bildungsgrad des Autors. Schreibt jemand die Trotteln statt die Trottel, deutet das auf Bayern hin, die Plastetüte klingt nach Ostdeutschland, wer mit dan verekt ihr droht, verfügt mutmaßlich über keine intensive Schulbildung. Ich warte für lässt Englisch als Muttersprache vermuten, unsre kontor hingegen Russisch, weil es dort das Femininum kontora – Büro – gibt.

Besonders hilfreich sind solche Indizien, wenn die Polizei Aufzeichnungen von Verdächtigen beschlagnahmt hat, die mit dem Tatschreiben verglichen werden können. Oft hilft auch ein Blick in die "Kiste", das Kriminaltechnische Informationssystem Texte, wie die Datenbank des BKA heißt. Die dort gespeicherten Texte lassen sich nicht nur nach Ort und Inhalt, sondern auch nach Auffälligkeiten in Grammatik oder Wortwahl abrufen.

Fast die Hälfte dieser Textsammlung besteht aus Erpresserbriefen. Sie zeigen, wie sehr sich auch kriminelle Korrespondenten am "korrekten" Briefverkehr orientieren. Was die Opfer zu lesen bekommen, erinnert häufig an einen hochseriösen Geschäftsbrief, einschließlich Höflichkeitsfloskeln: Wir würden uns freuen, wenn Sie unser Anliegen mit der nötigen Sorgfalt behandeln würden. Selbst absurd wirkende Formalitäten – Diese E-Mail ist auch ohne Unterschrift rechtsgültig – fehlen nicht.

Die meisten Täter fassen sich kurz. Die Mehrzahl der Texte hat weniger als 200 Wörter – was die Arbeit der Linguisten nicht leichter macht, denn wenn ein auffälliges Merkmal nur einmal vorkommt, ist schwer zu beurteilen, ob es sich um Zufall oder um ein stilistisches Indiz handelt. Eine Ausnahme bilden die oft ausufernden Bekennerschreiben extremistischer Gruppen. Sie sind allerdings gespickt mit ideologischen Versatzstücken und bringen eher den politischen Gruppenjargon als den individuellen Stil eines Einzelnen zum Ausdruck.

Die Experten des BKA fertigen ihre Gutachten für Polizei, Staatsanwaltschaften und Gerichte an. "Wir sind unabhängig", betont Sabine Schall – ihre Befunde können einen Verdächtigen ebenso gut be- wie entlasten. Den Linguisten sind die Fallstricke, die ihre Arbeit bereithält, durchaus bewusst: Nicht selten legen Autoren falsche Fährten, um ihre Identität zu verschleiern. Beliebt sind absichtliche Fehler, um einen Migrationshintergrund oder ein bildungsfernes Milieu vorzutäuschen. Meistens lassen sich solche Tarnmanöver aber durchschauen. "Mangelnde Sprachkompetenz überzeugend vorzuspiegeln erfordert beträchtliche sprachliche Fähigkeiten", meint Sabine Schall.

Wer einen Kiezjargon perfekt imitieren will, muss nicht nur den passenden Wortschatz, sondern auch die grammatischen Besonderheiten beherrschen. "Ausländerdeutsches" Pseudo-Gestammel – du zahlen, dann nix passieren! – reicht nicht. Viele Autoren scheitern auch daran, dass sie das "Fehlerniveau" nicht durchhalten: Wer mit Wir sind todeskommando of bagdad startet, aber später schreibt Bei nichteinhaltung unserer forderungen ist für eine sofortige gegenattacke alles vorbereitet, offenbart, dass er auch Bürokratendeutsch beherrscht.

Die Zahl der Computerlinguisten steigt

"Eine hundertprozentige Sicherheit in der Zuordnung von Texten zu Autoren werden wir niemals erreichen", sagt Schall. Deshalb beschränken sich die forensischen Gutachter auf Wahrscheinlichkeitsaussagen. Die Skala reicht von "nicht entscheidbar" bis zur "sehr hohen Wahrscheinlichkeit". Ein linguistischer Befund für sich genommen reicht in der Regel nicht, um einen Täter zu überführen, aber gemeinsam mit anderen Indizien kann er helfen, das Bild zu vervollständigen. Welches Gewicht ihre Gutachten vor Gericht erhalten, wissen die Linguisten oft nicht genau. Aber sie erfahren, ob ihre Resultate von den sonstigen Ermittlungsergebnissen bestätigt wurden. "Unsere Trefferquote ist ziemlich gut, echte Fehleinschätzungen sind mir nicht bekannt", sagt Schall.

Im Feld der forensischen Linguistik gehören die BKA-Experten zum eher traditionellen Lager: Sie untersuchen jeden einzelnen Text noch "von Hand", der Einsatz des Computers beschränkt sich auf die Archivierung und Systematisierung des Textmaterials und der Untersuchungsergebnisse. Doch eine wachsende Zahl von Computerlinguisten und Informatikern setzt mittlerweile auf Programme, die in der Lage sind, stilistische Muster automatisch zu erkennen. Für diese Aufgabe muss der Rechner zunächst "trainiert" werden: Dafür wird er mit Texten gefüttert, deren Autoren schon bekannt sind, sowie mit einer Liste sprachlicher Merkmale, die der forensische Ermittler für aussagekräftig hält und die sich berechnen lassen. Das kann zum Beispiel die durchschnittliche Satzlänge sein oder die Verteilung grammatischer Funktionswörter, die Häufigkeit bestimmter Tempora oder die Vorliebe für Nominalkonstruktionen – die von Ihnen morgen zu leistende Geldzahlung.

Auf dieser Basis erstellt das Programm sprachlich-stilistische Profile, die die Trainingstexte der unterschiedlichen Autoren nach ihren stilistischen Eigenschaften so klar wie möglich voneinander abgrenzen. Da die Autoren bekannt sind, lässt sich der Erfolg überprüfen und falls nötig durch zusätzliche Merkmale optimieren. Gibt man dann die Texte eines verdächtigen, aber anonymen Autors ein, berechnet der Computer, wie ähnlich dessen Schreiben den bereits analysierten Textgruppen sind und mit welcher Wahrscheinlichkeit sie von einem der bekannten Autoren stammen.

"Ich hatte schon immer ein Faible für Mathematik", sagt Joachim Scharloth, Professor für germanistische Sprachwissenschaft an der Technischen Universität Dresden. Er fertigt forensische Gutachten für private Auftraggeber an und gehört zu den bislang noch wenigen Experten in Deutschland, die für diese Aufgabe computerlinguistische Analyseprogramme einsetzen.

Wie viel Sorgfalt solche Untersuchungen trotz – oder gerade wegen – des Computereinsatzes erfordern, schildert der Sprachwissenschaftler am Beispiel eines anonymen Schmähbriefs. Dessen Empfänger hatte eine bestimmte Person – nennen wir sie Simone N. – als Autorin im Verdacht. Ob zu Recht, das sollte Scharloth herausfinden. Als Vergleichsmaterial stand ihm nur ein literarischer Prosatext von N. zur Verfügung. "Das ist eine sehr dünne Basis, zumal es sich hier um ganz unterschiedliche Textmuster handelt: Literatur richtet sich an ein breites Publikum, ein Brief dagegen spricht einen einzelnen Empfänger direkt an. Man muss zunächst einmal feststellen, ob sich die sprachlichen Unterschiede zwischen dem Tatschreiben und dem Vergleichstext ausschließlich durch die unterschiedlichen Textsorten erklären lassen oder ob sie auch auf unterschiedliche Autoren hindeuten."

Passendes Untersuchungsmaterial um das zu klären, fand Scharloth in einer Internetschreibwerkstatt. Hobbyautoren präsentieren dort nicht nur ihre eigenen Texte, sondern schreiben auch persönlich formulierte Kommentare zu den Werken ihrer Kollegen. Damit lagen von einzelnen Autoren jeweils zwei Textsorten vor.

Scharloths Software errechnete nun anhand von über 60 Merkmalen – vom Wortschatz bis zur Interpunktion – für jeden einzelnen der 172 Autoren der Schreibwerkstatt den sprachlichen Abstand zwischen seinen Erzählungen und seinen Kommentaren. Eingeschlossen in die Untersuchung waren auch der Schmähbrief und Simone N.s literarisches Werk. Es zeigte sich, dass die stilistische Distanz zwischen diesen beiden Texten nicht größer war als die zwischen den literarischen Produktionen und den Kommentaren aller anderen Autoren – ein größerer Abstand wäre ein entlastendes Indiz für N. gewesen.

In einem weiteren Schritt ermittelte der Computer dann den stilistischen Abstand zwischen den literarischen Texten aller Autoren und der Schmähschrift. Das Ergebnis war eindeutig: Dem Brief am ähnlichsten war die Prosa von Simone N. Zur Sicherheit ließ Joachim Scharloth alle Texte noch durch ein Programm laufen, das auf Autoren spezialisiert ist, die versuchen, ihre sprachliche Identität zu verschleiern. Das Resultat war dasselbe: Simone N. hat "mit hoher Wahrscheinlichkeit" den beleidigenden Brief verfasst.

"Solche Verfahren haben eine große Überzeugungskraft", sagt Scharloth. Trotzdem warnt er davor, sie zu überschätzen: "Maschinelle Autorenidentifikation führt nicht automatisch zum Täter, sie erlaubt nur Aussagen über Ähnlichkeiten und funktioniert nur, wenn es Verdächtige oder zusätzliche Indizien gibt."

Doch so zurückhaltend sind längst nicht alle Wissenschaftler. Vor allem Informatiker trauen der automatischen Autorenerkennung naturwissenschaftliche Exaktheit zu. Hsinchun Chen, Professor für Informatik an der Universität von Arizona in Tucson (USA), ist überzeugt davon, dass jeder Autor in seinen Texten seinen ganz persönlichen writeprint, seinen "sprachlichen Fingerabdruck", hinterlässt – ein individuelles und konstantes Muster aus bevorzugten Wörtern, Satzstrukturen, Schreibweisen und vielen anderen Eigenheiten, das jeder Schreibende unbewusst produziere.

Viele forensische Informatiker glauben, dass der "sprachliche Fingerabdruck" dem wirklichen an Beweiskraft kaum nachsteht. Unter dem publikumswirksamen Namen Dark Web entwickeln die Computerwissenschaftler in Tucson Writeprint-Programme, die die Kommunikation von Terrorgruppen in Internetforen analysieren und die Identitäten der beteiligten Diskussionsteilnehmer, die sich hinter wechselnden Pseudonymen verbergen, sichtbar machen sollen.

Im BKA glaubt man nicht an sprachliche Fingerabdrücke

Auf "Fingerabdrücke" in E-Mails konzentrieren sich Informatiker an der Concordia-Universität im kanadischen Montreal. "Mit unseren Tools können Strafverfolgungsbehörden nicht nur Gruppen von Autoren, sondern auch Individuen identifizieren, selbst bei Texten von 30 bis 50 Wörtern", sagt der Computerwissenschaftler Farkhund Iqbal. Die Treffergenauigkeit, mit der die Algorithmen den Autor eines Textes aus zehn Verdächtigen herauspicken, geben die kanadischen Wissenschaftler mit 80 bis 90 Prozent an.

Das Versprechen, aus den gigantischen Datenmengen des Internets mit mathematischer Präzision kriminelle Identitäten filtern zu können, hat die automatisierte Autorenidentifikation vor allem in den USA zu einem boomenden Forschungsfeld gemacht. Die meisten Projekte befinden sich noch im Entwicklungsstadium, aber das Interesse von Justiz, Polizei und Geheimdiensten ist groß und lässt Fördergelder sprudeln.

Im Kriminaltechnischen Institut des BKA glaubt man allerdings nicht an die Existenz von "sprachlichen Fingerabdrücken", und auch Joachim Scharloth sieht darin eine irreführende Metapher, die die Unterschiede zwischen biologischen und sprachlichen Merkmalen verschleiere: "Ein Fingerabdruck ist wirklich einzigartig, und er bleibt das ganze Leben über unverändert. Sprache dagegen ist ein gesellschaftliches Medium, sie beruht auf gemeinsamen Regeln, orientiert sich an Textgattungen und stilistischen Konventionen. Außerdem können sich Sprachgewohnheiten im Lauf des Lebens stark verändern."

Wie sehr, das zeigen Untersuchungen literarischer Werke: Bei manchen Dichtern unterscheiden sich Früh- und Spätwerk stilistisch so stark voneinander, als stammten sie von unterschiedlichen Autoren. Über all diese Faktoren, die die Sprache zu einem flexiblen und lebendigen Kommunikationsmittel machen, aber die Möglichkeiten einer mathematischen Autorenerkennung begrenzen, weiß man noch recht wenig.

Problematisch ist auch, dass die Sicherheitsinformatiker häufig Textmerkmale heranziehen, die die Software zwar leicht identifizieren kann, deren Beweiskraft aber von vielen Linguisten bestritten wird: Dazu gehören Häufigkeiten von Buchstabenkombinationen, durchschnittliche Wortlängen oder die Verwendung von Absätzen – Kriterien, bei denen höchst zweifelhaft ist, ob sich aus ihnen ein individueller Stil herleiten lässt.

Die Diskussionen über Möglichkeiten und Grenzen der forensischen Linguistik sind alles andere als bloß akademisch. Sie haben Auswirkungen darauf, welches Gewicht Wörter und Wendungen, Kommas und Nebensätze für zukünftige Ermittlungen und Gerichtsverfahren erhalten werden.

Welche Folgen voreilige Schlüsse von Texten auf vermeintliche Täter haben können, dafür liefert die Geschichte der linksradikalen "militanten gruppe" ein Beispiel. In deren Namen wurden zwischen 2001 und 2009 Brandanschläge auf Fahrzeuge und Gebäude staatlicher Einrichtungen und großer Konzerne verübt. Jahrelang observierten Verfassungsschutz und Polizei mehrere zu Unrecht beschuldigte Wissenschaftler und politische Aktivisten. Die Ermittler filmten sie, installierten Peilsender, überwachten ihre Kommunikation und durchsuchten ihre Häuser.

Eine wesentliche Begründung für diese Maßnahmen waren sprachliche Übereinstimmungen, die die Ermittler zwischen den Bekennerschreiben der militanten gruppe und Texten und telefonischen Äußerungen der Verdächtigten festgestellt hatten. Zu den "schlimmen Wörtern" gehörten zum Beispiel Prekarisierung, Reproduktion, marxistisch-leninistisch oder Bezugsrahmen, Begriffe also, die in der linken Szene ebenso wie in sozialwissenschaftlichen Abhandlungen durchaus gängig sind.

Einer der Beschuldigten – der Berliner Soziologe Andrej Holm – geriet 2007 für einige Wochen in Untersuchungshaft, erst 2010 wurden die Ermittlungen gegen ihn offiziell eingestellt. Im selben Jahr befand der Bundesgerichtshof, dass die massive Überwachung in einigen Fällen von Anfang an rechtswidrig gewesen war. Die Ironie an der Geschichte: Die Linguisten des BKA hatten in zwei Gutachten, die sich auf einige der Beschuldigten bezogen, starke Zweifel an einer Autorenidentität angemeldet und auch Kritik an der Methodik der zugrunde liegenden Sprachvergleiche geäußert. Doch die ermittelnden Behörden hatten die Hinweise als irrelevant abgetan.