Google Books : Wie oft kam Gott?

"Kulturomik" ist die quantitative Analyse menschlicher Kultur. Dank Google Books kann man jetzt verborgene Trends in Geschichte, Kultur und Sprache online entdecken.
Die Grafik zeigt die häufigsten Wörter in zeitgenössischen englischsprachigen Büchern. Je häufiger ein Weort vorkommt, desto größer ist es geschrieben. Die häufigsten Wörter wie "the" und "a" wurden ausgelassen

Was, wenn jemand alle Bücher lesen könnte, die jemals geschrieben wurden? Was für ein Bild der Welt würde er bekommen? Und wie würde es sich im Laufe der Zeit wandeln? Wie haben sich Wortwahl, Grammatik, Ernährung, Kultur verändert? Genau das haben Forscher der Universität Harvard in Zusammenarbeit mit Google Books vier Jahre lang zu beantworten versucht.

Es hat zwar kein Mensch der Welt genug Zeit, um auch nur alle Bücher eines Jahrgangs zu lesen, aber mit der zunehmenden Digitalisierung von Büchern werden die Informationen von den Buchseiten gelöst und in eine computerverständliche Sprache übersetzt. Nicht alle etwa 129 Millionen Bücher, die jemals geschrieben wurden, sind digital verfügbar. Aber immerhin 15 Millionen Bücher will Internetgigant Google inzwischen in Universitätsbibliotheken rund um die Welt eingescannt haben.

Daraus wählte ein Team um den Wissenschaftler Erez Lieberman Aiden fast 5,2 Millionen Bücher aus, deren Text in guter Qualität vorlag und für die auch Metadaten verfügbar waren, also Angaben über Ort und Zeitpunkt der Publikation. Die Bücher gehen zurück bis ins 16. Jahrhundert und die Datenmenge ist wahrhaft astronomisch: 500 Milliarden Wörter, darunter 361 Milliarden in Englisch und 37 Milliarden in Deutsch. In einer geraden Linie würden sie zehnmal zum Mond und zurück reichen.

Indem die Forscher aus dieser Datenflut herausfiltern, wie häufig ein bestimmtes Wort in jedem Jahr auftaucht, können sie kulturelle und historische Trends herauslesen. Sie zeigen zum Beispiel, dass in englischen Büchern der Gebrauch des Wortes "Männer" in den vergangenen 200 Jahren kontinuierlich abgenommen hat und der Gebrauch von "Frauen" zugenommen hat. Die Häufigkeitsverteilung des Wortes "Influenza" stimmt mit den großen Pandemien überein. Und das Wort "Gott" wird seit 1850 immer seltener erwähnt. "Gott ist nicht tot, aber er benötigt einen neuen Publizisten", schreiben die Wissenschaftler. Die Untersuchung endet allerdings im Jahr 2000. Ob die Erwähnung von Gott nach den Terroranschlägen im September 2001 wieder zugenommen hat, können die Forscher daher nicht beantworten. Sogar die Essgewohnheiten haben die Wissenschaftler untersucht. Demnach hat das Wort Eiscreme um 1950 seinen größten Erfolg gefeiert, Pasta und Pizza tauchen im Englischen erst danach auf und Sushi erst im letzten Viertel des Jahrhunderts.

Die Forscher sind ehrgeizig. Nichts weniger als ein neues Feld wollen sie schaffen: die Kulturomik, die quantitative Analyse menschlicher Kultur. "Bisher sind quantitative Herangehensweisen an die Erforschung von Kultur daran gescheitert, dass es keine geeigneten Daten gab", sagt Jean-Baptiste Michel, einer der beteiligten Forscher. Das habe sich nun geändert. Und Jon Orwant von Google Books freut sich: "Jetzt ist es möglich mit einer computergestützten Analyse verborgene Trends in Geschichte, Kultur, Sprache und Denken zu entdecken." Vorbild sind die Biologen, die im Feld der Genomik das Erbgut hunderter Individuen entziffern, um Unterschiede und Gemeinsamkeiten zu verstehen und den Grundlagen der menschlichen Biologie auf die Schliche zu kommen. Nun wollen die Wissenschaftler das Erbgut der menschlichen Kultur genauso in Daten fassen, eine Art Humangenomprojekt der Geisteswissenschaften.

"Das ist eine hervorragende Arbeit, die unseren Erkenntnisstand in einer Reihe von Punkten bereichert", lobt Wolfgang Klein, Direktor des Max-Planck-Instituts für Psycholinguistik im niederländischen Nijmegen. So haben die Wissenschaftler auch die Größe des englischen Wortschatzes errechnet: 1900 gab es etwa 544 000 englische Wörter, im Jahr 2000 waren es 1.022.000. "Das überrascht sicher viele, weil immer behauptet wird, die Sprache werde ärmer und die Ausdrucksfähigkeit sinke. Aber das stimmt eben nicht", sagt Klein. Seine eigene Arbeit am deutschen digitalen Wörterbuch zeige für das Deutsche was die Arbeit aus Harvard für Englisch zeige: "Wir verlieren sehr wenige Wörter und gewinnen sehr viele dazu." Und viele Neuzugänge haben ihren Weg noch nicht in die gängigen Wörterbücher gefunden. Mehr als die Hälfte aller englischen Wörter, die die Forscher fanden, sind lexikalische "dunkle Materie".

Mithilfe der Daten lassen sich aber auch ganz andere Fragen beantworten. So haben die Wissenschaftler auch untersucht, wie sich die Erwähnung von berühmten Menschen mit der Zeit ändert. Ihr Ergebnis: Das Durchschnittsalter, in dem eine Person den Höhepunkt ihres Ruhmes erreicht, hat sich seit 1800 kaum geändert. Er wird mit etwa 75 Jahren erreicht. Das Alter, wenn Menschen erstmals berühmt werden, ist allerdings von 43 auf 29 Jahre gefallen, und die Berühmtheit steigt schneller an und erreicht ein höheres Maß. "Menschen werden heute berühmter als jemals zuvor, aber sie werden auch schneller vergessen", resümieren die Wissenschaftler.

Verlagsangebot

Hören Sie DIE ZEIT

Genießen Sie wöchentlich aktuelle ZEIT-Artikel mit ZEIT AUDIO

Hier reinhören

Kommentare

10 Kommentare Seite 1 von 3 Kommentieren

Quantitative Sprachanalyse als "neues Feld"?

Dass die Forscher so großspurig von sich schreiben, sie wollten mit quantitativer Sprachanalyse ein "neues Feld" schaffen, ist entweder auf mangelndes Wissen oder Hybris zurückzuführen.

Siehe z.B: Die Flaggschiffe der Literatur zum englischen Sprachgebrauch bilden seit geraumer Zeit die sogenannten "Usage Dictionaries". Ich greife vor allem auf "Garner's Modern American Usage" zurück. Die letzte (dritte) Edition wurde erst 2009 veröffentlicht, die erste allerdings schon 1998. Im Vorwort zur ersten Ausgabe steht:

"... I've supplemented entries with examples gleaned from two online databases: NEXIS and WESTLAW. For two decades, they have provided full-text searchability for millions of published documents [...] When I say, then, that ethicist is 400 times more common than ethician, I have searched vast databases of newspapers and journals to arrive at this round figure. As for those particular terms, the NEXIS databases [...] contain 10,138 published documents in which ethicist apperas, but only 25 documents in which ethician appears. ... when I say that self-deprecating [...] is is 50 times more common than self-depreciating [...], I have searched those same databases ..."

Die Methode ist also weder neu (1998/2010) noch revolutionär. Zudem scheint die Google-Suchmaschine durchaus noch einige Macken zu haben. Wenn ich nach "self-deprecating" suche, bekomme ich in Google trotz der angeblich weit größeren Wortanzahl kein einziges Resultat.

~ 1309

Interessant und doch irgend wie daneben. Man stelle sich ein Buch vor, das heute erscheint und auf 400 Seiten in allen Zeilen nur 20-mal das Wort Gott enthält.

Manchmal mag eine entdeckte Tendenz etwas aufzeigen. Aber die Gefahr der Falschbewertung, bereits aufgrund einer aus der gewohnten Gegenwart sich ergebenden Fragestellung, ist doch recht groß. Das Ganze ist eher etwas fürs Guiness Buch der Rekorde.

Die Schwäche erkennt man auch an etwas, was ebenfalls der Autor des Artikels unterschätzte. Die kleinste, auftauchende Zahl ist 5.2 Millionen. Niemand könnte die Bücher, die in einem Jahrzehnt erscheinen, alle lesen - das ist so ziemlich eine extrem gewaltige Untertreibung. Nehmen wir aber mal diese Zahl der in die Untersuchung einbezogenen Werke, dann wären das für einen Leser mehr als 150 Bücher jeden Tag, die er bewältigen müsste. Er würde wohl mehr Zeit verbrauchen, um die Logistik zu meistern, als er in einem Buch verweilen kann. Oder: Um alle 5.2 Mio zu lesen, dürfte er bei einer 40 Stundenwoche zwischen 10. und 75. Lebensjahr für kein Buch mehr als zwei Minuten benötigen (ohne Holen und Wegräumen).

Copyright des Bildes falsch?

So wie es aussieht, führt der im Copyright des Bildes angegebene Link auf eine Seite, die prinzipiell nur Werbung enthält; das Copyright des Bildes sollte statt (c) wordle.ORG vielleicht besser anders heissen. So lassen sich unter wordle.NET entsprechende Grafiken rendern, wordle.net ist wohl eher als ein Rendering-Service zu verstehen. Das (c) sollte richtigerweise eher auf den eigentlichen Schöpfer der Grafik zeigen, wie das ja implizit in den "Terms of use" aufgeführt wird.