Hätte Joachim Scharloth keinen Computer, er wäre mit seiner Studie im Leben nicht fertig geworden. Der Linguist von der Technischen Universität Dresden hat untersucht, wie sich die Interpretationen des Weltgeschehens in der Wochenzeitung DIE ZEIT verändert haben, von 1946 bis 2011: 335.878 Artikel, 271.439.149 Wörter. Allein das Lesen hätte zweieinhalb Jahre gedauert (bei einer Geschwindigkeit von 200 Wörtern in der Minute) – ohne Pausen zum Essen oder Schlafen. Doch Scharloth hat nicht nur einen Computer, sondern auch eine Software, mit der er solche Datenmengen schnell analysieren kann. Die Studie war in wenigen Monaten fertig.

Big Data in den Geisteswissenschaften: Inzwischen nutzen auch Historiker, Literaturwissenschaftler und Linguisten die Möglichkeiten der Datenanalyse im großen Stil. Sie lassen den Computer zählen, wie oft die Wörter, die für ihre Forschung wichtig sind, in Texten vorkommen, und vergleichen deren Häufigkeiten über die Jahre. Oder sie lassen ihre Programme nach Verbindungen von Schlüsselbegriffen fahnden. Aus den Ergebnissen lesen sie gesellschaftliche Entwicklungen, Veränderungen von Erzählstilen oder grammatikalische Trends heraus. Früher mussten sie dazu Texte Wort für Wort lesen, die gesuchten Begriffe mit Buntstift markieren und per Strichliste auszählen. Die Methode hatte ihre Grenzen.

Das neue Forschungsfeld nennt sich Digital Humanities oder Culturomics. Einen enormen Popularitätsschub verpassten zwei Forscher von der Harvard University dem jungen Fach: Sie entwickelten zusammen mit Google ein Werkzeug, mit dem jeder im Internet eine extrem große Datenmenge blitzschnell auswerten kann – den Google Books Ngram Viewer. Die erstaunlichen Perspektiven, die das Programm eröffnet, beschreiben sie in ihrem Buch Uncharted. Big Data as a Lens on Human Culture.

Mehr als fünf Millionen Bücher enthält die Datenbank des Ngram Viewers, das sind vier Prozent aller Bücher, die jemals gedruckt wurden. Die ersten Einträge stammen aus dem 16. Jahrhundert, ab dem 19. Jahrhundert nimmt die Zahl der erfassten Bücher rapide zu. In das Suchfeld des Viewers muss man bloß ein Wort eintippen, und die Software berechnet für jedes Jahr dessen relative Häufigkeit (bezogen auf alle Wörter in der Datenbank für das jeweilige Jahr). Heraus kommt ein handliches Diagramm, das der Kurve eines Aktienkurses ähnelt. Man kann auch mehrere Wörter gleichzeitig eingeben und deren Konjunktur über die Jahrhunderte vergleichen.

Streitfragen der Grammatik zum Beispiel lassen sich ganz fix klären. Wann in den vergangenen 300 Jahren sagte man eher "backte", wann "buk"? Der Kursvergleich zeigt: Meist war "buk" obenauf, aber um 1790 erlebte "backte" eine überraschende Hausse. Doch Vorsicht! In den frühen Jahren ist der Datenbestand noch spärlich, da kann schon die Vorliebe eines Autors den Ausschlag geben. Der jüngste Trend aber ist belastbar: Seit Mitte der achtziger Jahre fällt "buk" im Kurs, dafür ist "backte" im Aufwind.

"Früher konnte man so große Textmengen natürlich nicht bearbeiten", sagt der Linguist Scharloth. "Man musste Texte auswählen, und die Auswahl war theoriegeleitet, die Analyse also von vornherein beeinflusst." Die neuen digitalen Werkzeuge stellen geisteswissenschaftliche Studien auf eine so breite empirische Basis wie nie zuvor: Daten vor Theorie. "Außerdem kann man bei diesen Datenmengen auch kleine Veränderungen finden, die ansonsten gar nicht auffallen würden", sagt Scharloths Kollege Noah Bubenhofer von der Technischen Universität Dresden. Doch es geht nicht allein um die schiere Masse. "Es gibt ganz neue Möglichkeiten, weil alles in Zahlen vorliegt und man deshalb alles miteinander verknüpfen kann", sagt Scharloth. "Was wir machen, ist nicht einfach die Fortsetzung der Textanalyse mit anderen Mitteln, sondern etwas ganz Neues."

Aus den 335.878 ZEIT-Artikeln wollte Scharloth herauslesen, wie sich die Sicht der Wochenzeitung auf die Welt verändert hat, mit welcher Brille die Redakteure die Ereignisse der vergangenen Jahrzehnte betrachtet haben. Eine solche Brille nennen Soziologen Deutungsrahmen oder Frame. Für seine Analyse hat Scharloth zunächst solchen Deutungsrahmen (zum Beispiel "Gerechtigkeit" oder "Familie") einzelne Stichworte zugeordnet. Nach denen ließ er sein Programm suchen. So konnte er feststellen, welche Frames von 1946 bis 2011 zunehmend seltener ("Befehl", "Ehre"), häufiger ("Essen", "Krankheit") oder gar sehr viel häufiger vorkamen ("Zärtlichkeit", "Übersinnliches"). Dann suchte er nach Jahren, in denen sich die Deutungen besonders stark verändert hatten. Viele Umbrüche waren erwartbar: 1969/70 (68er-Bewegung), 1991/92 (Deutsche Einheit), 2001 bis 2003 (Terroranschläge vom 11. September). "Interessant ist, dass die Interpretationen in der ZEIT sich erst ein, zwei Jahre nach den jeweiligen Ereignissen veränderten", sagt der Linguist. "Offenbar brauchte die Redaktion eine Weile, bis sie diese Umwälzungen verarbeitet hatte."

Um herauszufinden, was genau sich in diesen Jahren verändert hatte, drang Scharloth mit seiner Software tiefer in das Textgeflecht der ZEIT vor. Wohin hatte sich die Debatte entwickelt, welche Interpretationsmuster waren verschwunden, welche neu entstanden? Zum Beispiel der Umbruch 1991/92: An drei Stellen im Textgeflecht gab es besonders viele Veränderungen, eine davon rund um den Frame "Nation". 1991 war der Begriff vor allem mit "Staat", "Herrschen" und "Politik" verknüpft, 1992 eher mit "Mode", "Geschmack", "Kunstsinn" und "Kulturelle Entwicklung". "Da fand ganz offensichtlich eine Umdefinition in der ZEIT statt, von der Staats- zur Kulturnation", sagt Scharloth. "Und offenbar wurden die Nation und ihre Wiedervereinigung zunehmend auf der Ebene der persönlichen Konsumerfahrung beschrieben."