Hätte Joachim Scharloth keinen Computer, er wäre mit seiner Studie im Leben nicht fertig geworden. Der Linguist von der Technischen Universität Dresden hat untersucht, wie sich die Interpretationen des Weltgeschehens in der Wochenzeitung DIE ZEIT verändert haben, von 1946 bis 2011: 335.878 Artikel, 271.439.149 Wörter. Allein das Lesen hätte zweieinhalb Jahre gedauert (bei einer Geschwindigkeit von 200 Wörtern in der Minute) – ohne Pausen zum Essen oder Schlafen. Doch Scharloth hat nicht nur einen Computer, sondern auch eine Software, mit der er solche Datenmengen schnell analysieren kann. Die Studie war in wenigen Monaten fertig.

Big Data in den Geisteswissenschaften: Inzwischen nutzen auch Historiker, Literaturwissenschaftler und Linguisten die Möglichkeiten der Datenanalyse im großen Stil. Sie lassen den Computer zählen, wie oft die Wörter, die für ihre Forschung wichtig sind, in Texten vorkommen, und vergleichen deren Häufigkeiten über die Jahre. Oder sie lassen ihre Programme nach Verbindungen von Schlüsselbegriffen fahnden. Aus den Ergebnissen lesen sie gesellschaftliche Entwicklungen, Veränderungen von Erzählstilen oder grammatikalische Trends heraus. Früher mussten sie dazu Texte Wort für Wort lesen, die gesuchten Begriffe mit Buntstift markieren und per Strichliste auszählen. Die Methode hatte ihre Grenzen.

Das neue Forschungsfeld nennt sich Digital Humanities oder Culturomics. Einen enormen Popularitätsschub verpassten zwei Forscher von der Harvard University dem jungen Fach: Sie entwickelten zusammen mit Google ein Werkzeug, mit dem jeder im Internet eine extrem große Datenmenge blitzschnell auswerten kann – den Google Books Ngram Viewer. Die erstaunlichen Perspektiven, die das Programm eröffnet, beschreiben sie in ihrem Buch Uncharted. Big Data as a Lens on Human Culture.

Mehr als fünf Millionen Bücher enthält die Datenbank des Ngram Viewers, das sind vier Prozent aller Bücher, die jemals gedruckt wurden. Die ersten Einträge stammen aus dem 16. Jahrhundert, ab dem 19. Jahrhundert nimmt die Zahl der erfassten Bücher rapide zu. In das Suchfeld des Viewers muss man bloß ein Wort eintippen, und die Software berechnet für jedes Jahr dessen relative Häufigkeit (bezogen auf alle Wörter in der Datenbank für das jeweilige Jahr). Heraus kommt ein handliches Diagramm, das der Kurve eines Aktienkurses ähnelt. Man kann auch mehrere Wörter gleichzeitig eingeben und deren Konjunktur über die Jahrhunderte vergleichen.

Streitfragen der Grammatik zum Beispiel lassen sich ganz fix klären. Wann in den vergangenen 300 Jahren sagte man eher "backte", wann "buk"? Der Kursvergleich zeigt: Meist war "buk" obenauf, aber um 1790 erlebte "backte" eine überraschende Hausse. Doch Vorsicht! In den frühen Jahren ist der Datenbestand noch spärlich, da kann schon die Vorliebe eines Autors den Ausschlag geben. Der jüngste Trend aber ist belastbar: Seit Mitte der achtziger Jahre fällt "buk" im Kurs, dafür ist "backte" im Aufwind.

"Früher konnte man so große Textmengen natürlich nicht bearbeiten", sagt der Linguist Scharloth. "Man musste Texte auswählen, und die Auswahl war theoriegeleitet, die Analyse also von vornherein beeinflusst." Die neuen digitalen Werkzeuge stellen geisteswissenschaftliche Studien auf eine so breite empirische Basis wie nie zuvor: Daten vor Theorie. "Außerdem kann man bei diesen Datenmengen auch kleine Veränderungen finden, die ansonsten gar nicht auffallen würden", sagt Scharloths Kollege Noah Bubenhofer von der Technischen Universität Dresden. Doch es geht nicht allein um die schiere Masse. "Es gibt ganz neue Möglichkeiten, weil alles in Zahlen vorliegt und man deshalb alles miteinander verknüpfen kann", sagt Scharloth. "Was wir machen, ist nicht einfach die Fortsetzung der Textanalyse mit anderen Mitteln, sondern etwas ganz Neues."

Aus den 335.878 ZEIT-Artikeln wollte Scharloth herauslesen, wie sich die Sicht der Wochenzeitung auf die Welt verändert hat, mit welcher Brille die Redakteure die Ereignisse der vergangenen Jahrzehnte betrachtet haben. Eine solche Brille nennen Soziologen Deutungsrahmen oder Frame. Für seine Analyse hat Scharloth zunächst solchen Deutungsrahmen (zum Beispiel "Gerechtigkeit" oder "Familie") einzelne Stichworte zugeordnet. Nach denen ließ er sein Programm suchen. So konnte er feststellen, welche Frames von 1946 bis 2011 zunehmend seltener ("Befehl", "Ehre"), häufiger ("Essen", "Krankheit") oder gar sehr viel häufiger vorkamen ("Zärtlichkeit", "Übersinnliches"). Dann suchte er nach Jahren, in denen sich die Deutungen besonders stark verändert hatten. Viele Umbrüche waren erwartbar: 1969/70 (68er-Bewegung), 1991/92 (Deutsche Einheit), 2001 bis 2003 (Terroranschläge vom 11. September). "Interessant ist, dass die Interpretationen in der ZEIT sich erst ein, zwei Jahre nach den jeweiligen Ereignissen veränderten", sagt der Linguist. "Offenbar brauchte die Redaktion eine Weile, bis sie diese Umwälzungen verarbeitet hatte."

Um herauszufinden, was genau sich in diesen Jahren verändert hatte, drang Scharloth mit seiner Software tiefer in das Textgeflecht der ZEIT vor. Wohin hatte sich die Debatte entwickelt, welche Interpretationsmuster waren verschwunden, welche neu entstanden? Zum Beispiel der Umbruch 1991/92: An drei Stellen im Textgeflecht gab es besonders viele Veränderungen, eine davon rund um den Frame "Nation". 1991 war der Begriff vor allem mit "Staat", "Herrschen" und "Politik" verknüpft, 1992 eher mit "Mode", "Geschmack", "Kunstsinn" und "Kulturelle Entwicklung". "Da fand ganz offensichtlich eine Umdefinition in der ZEIT statt, von der Staats- zur Kulturnation", sagt Scharloth. "Und offenbar wurden die Nation und ihre Wiedervereinigung zunehmend auf der Ebene der persönlichen Konsumerfahrung beschrieben."

"Da fliegen einem schnell die Analysekategorien um die Ohren"

Als Scharloth den letzten großen Umschwung, die Zeit der Finanzkrise, unter die Lupe nahm, zeigte sich ebenfalls ein klares Muster: Vor 2008 war "Wirtschaft" vor allem mit den Deutungsrahmen "Verkaufen", "Handeln", "Markt" und "Wettbewerb" verbunden. In den drei folgenden Jahren traten diese Interpretationsmuster in den Hintergrund, dafür wurden andere wichtig, nämlich "Verleihen", "Sicherheitsleistung" und "Verpflichtung". Und die "Politik" war nun stärker mit "Parlament" und "Herrschaft" verbunden. "In den Deutungsmustern spiegelt sich die Tendenz, klare Regelwerke für die Wirtschaft zu fordern", sagt Scharloth. "In der Interpretation der ZEIT-Redaktion ist die Politik durch die Krise vorübergehend erstarkt."

Immer mehr Geisteswissenschaftler nutzen die neuen digitalen Analyse-Werkzeuge, viele lernen selbst zu programmieren, neue Professuren werden geschaffen. 2012 gründeten Forscher den Verband Digital Humanities im deutschsprachigen Raum. Ihre Studien reichen von Analysen der Parteiprogramme zur Bundestagswahl über Untersuchungen, welche englischsprachigen Romanautoren des 19. Jahrhunderts den größten Einfluss auf ihre Kollegen hatten, bis hin zu recht speziellen Themen.

So erforscht Noah Bubenhofer von der Technischen Universität Dresden das "Sprechen über Berge" – anhand des Gesamtbestands der Zeitschriften des Schweizer Alpenclubs: Alle Jahrgänge seit 1864 sind digital erfasst. "In der Schweiz sind die Alpen so wichtig wie in Deutschland der Wald oder das Grundgesetz", erklärt der gebürtige Schweizer. "Wie dort über Berge gesprochen wird, sagt viel über gesellschaftliche Befindlichkeiten." In den Artikeln aus den 1960er und 1970er Jahren wurden viele Pronomen verwendet, besonders "ich" und "wir", häufig war von den "Kameraden" und den "Freunden" die Rede, es ging um das Gemeinschaftserlebnis am Berg. Die Natur wurde geradezu überschwänglich beschrieben, "herrlich" und "prächtig" war alles dort oben. Und es kamen viele Verben vor – hier wurden Geschichten erzählt. Ganz anders in den 1990er und 2000er Jahren: Nun standen "Fotos", "Routen", "Information" und "Tel." im Mittelpunkt. "Sport" und "Wettkampf" machten sich in den Bergen breit. Und die Alpen-Zeitschrift wurde vom Geschichtenbuch zum Serviceheft.

Aber längst nicht alle Geisteswissenschaftler sind von den neuen Möglichkeiten begeistert. "Auf Tagungen bekommen wir schon zu hören, man müsse Texte doch lesen", erzählt Scharloth. "Aber ich bin ja gar nicht der Meinung, man solle jetzt aufhören mit dem Lesen." Die Culturomics stellten schlicht andere Fragen als die klassische Textanalyse: "Die sucht nach dem Besonderen, wir suchen nach dem Normalen, dem Muster."

Womöglich werden die neuen digitalen Werkzeuge sogar die Qualität der Forschung in den Geisteswissenschaften verbessern. Das meint die Literaturwissenschaftlerin Evelyn Gius von der Universität Hamburg. In ihrer Dissertation hat sie ebenfalls mit einer Software Texte analysiert. "Für diese Art der Forschung muss man die Phänomene, die man im Text untersuchen will, wirklich gut verstehen", sagt sie. "Sonst kann man die Analysekategorien nicht sauber festlegen." Natürlich seien sorgfältige Definitionen auch bei der traditionellen Textanalyse wichtig, aber der Computer mache Widersprüche schneller sichtbar: "Da fliegen einem schnell die Analysekategorien um die Ohren."

Den Google Books Ngram Viewer, der die Culturomics populär gemacht hat, sehen die meisten Forscher inzwischen kritisch. "Das ist hoch problematisch, weil wir keine Ahnung haben, welche Bücher überhaupt in der Datenbank sind", sagt Linguist Bubenhofer. Schlussfolgerungen zu gesellschaftlichen Entwicklungen sind deshalb heikel. Zum Beispiel zeigt der Ngram Viewer in den neunziger Jahren einen steilen Anstieg des Wortes "Ostarbeiter", wie der Linguist Klaas Willems in einer Studie über die Sprache der Nationalsozialisten herausfand. Bedeutet das, dass Neonazis Wörter aus der NS-Zeit wiederaufleben lassen? Um das zu beantworten, musste Willems mühsam die Fundstellen im Ngram Viewer durchkämmen. Er entdeckte, dass die Häufung einen ganz anderen Grund hatte: In den neunziger Jahren erschienen schlicht sehr viele Publikationen über die Arbeiterpolitik in der NS-Zeit, in denen das Wort "Ostarbeiter" vorkam.

"Aber für die rein quantitative Linguistik ist der Ngram Viewer natürlich fantastisch", sagt Noah Bubenhofer. Will man die Entwicklung grammatischer Formen verfolgen (wie im Beispiel "backte" versus "buk") oder für den Unterricht einen Kernwortschatz, also eine Sammlung der am häufigsten gebrauchten Wörter einer Sprache, zusammenstellen, ist der Ngram Viewer eine gute Hilfe.

Für historische oder soziologische Analysen greifen Forscher lieber auf bekannte Quellen wie Zeitungsarchive zurück oder stellen sich ihre Datenbanken selbst zusammen – so wissen sie genau, welche Texte darin sind. Bei der Interpretation ihrer Ergebnisse müssen sie trotzdem vorsichtig sein: "Unsere Diagramme suggerieren eine Eindeutigkeit, die es so nicht gibt", sagt Joachim Scharloth. "Die Ergebnisse sind immer auch daten- und modellabhängig." Und an einem großen Problem werden die Informatiker noch lange zu knacken haben: Auch die ausgefeilteste Analyse-Software versteht bis heute weder bildliche Sprache noch Ironie oder Humor.