Wie weit sind Grass und Böll stilistisch voneinander entfernt? Und welche gereimte Bosheit kann nur von Goethe stammen? Darüber lässt sich lange brüten und manch germanistisches Seminar mit dicker Luft füllen. Doch es geht auch einfacher: Jetzt wird gezippt. Zwei Mathematiker und ein Physiker der Universität La Sapienza in Rom haben in den Physical Review Letters eine aufsehenerregende Methode vorgestellt, den Autor eines Textes zu ermitteln.

Dario Benedetto, Emanuele Caglioti und Vittorio Lorenzo nutzen dabei ein bekanntes Rechenverfahren, den Lempel-Ziv-Algorithmus, der gewöhnlich zum Komprimieren beziehungsweise Verkleinern von Computerdateien dient. So steckt der Algorithmus auch in Programmen wie Winzip: Klick, und die Datei hat nur noch einen Bruchteil ihrer Größe. Ein solcher "Zipper" betrachtet Texte einfach als Zeichenketten und sucht sich alles heraus, was mehrfach vorkommt.

Komprimiert er etwa einen englischen Text, wird er oft auf die Buchstabenfolge the stoßen. Für solch häufige Ketten legt er eine Art eigenes Kurzwörterbuch an. Trifft er im weiteren Text dann wieder auf the, verzichtet er darauf, die Buchstabenfolge erneut zu speichern und verweist dafür an dieser Stelle auf den Eintrag im Wörterbuch. Am Ende ist der Text ausgeweidet, frei von Wiederholungen und die Zeichenkette viel kürzer als vorher. Und die Datei kleiner, denn Verweise brauchen weniger Speicherplatz als redundante Ketten.

Je länger der Text, desto besser kann der Zipper die Zeichenkette komprimieren, weil sein Wörterbuch für die Redundanzen dann größer wird.

Redundanz wird in der Informationstheorie mit Hilfe des Begriffs der Entropie erfasst: Entropie ist ein Maß für Unordnung. Besteht zum Beispiel eine Zeichenfolge aus lauter "As", dann ist sie besonders ordentlich und kann auf eine einzige Regel zusammengestaucht werden: "Vervielfältige A!" - schon ist der ganze Text wieder hergestellt. Die Entropie des Textes ist in diesem Fall extrem gering. Je niedriger die Entropie, desto kürzer die Zeichenkette, die nach dem Komprimieren herauskommt.

Die Suche nach Unordnung

Ein Zip-Programm misst die relative Entropie einer Zeichenkette in Bezug auf eine andere. Die Forscher nutzten diese Eigenschaft der Komprimierungsprogramme für ihre Strategie: Man zippe den langen Text eines bekannten Schriftstellers, um dessen Entropie zu erfassen: Die Redundanzen schreibt der Zipper in sein Wörterbuch. Kommt das Programm dann zu einem unbekannten Text, hält es sich zunächst an das, was es gerade gelernt hat: Es komprimiert nur Zeichenfolgen, die es schon im Wörterbuch hat.