Google BooksWie oft kam Gott?

"Kulturomik" ist die quantitative Analyse menschlicher Kultur. Dank Google Books kann man jetzt verborgene Trends in Geschichte, Kultur und Sprache online entdecken. von 

Die Welt in Wörtern. Die Grafik zeigt die häufigsten Wörter in zeitgenössischen englischsprachigen Büchern. Je häufiger ein Weort vorkommt, desto größer ist es geschrieben. Die häufigsten Wörter wie "the" und "a" wurden ausgelassen

Die Grafik zeigt die häufigsten Wörter in zeitgenössischen englischsprachigen Büchern. Je häufiger ein Weort vorkommt, desto größer ist es geschrieben. Die häufigsten Wörter wie "the" und "a" wurden ausgelassen  |  © wordle.net

Was, wenn jemand alle Bücher lesen könnte, die jemals geschrieben wurden? Was für ein Bild der Welt würde er bekommen? Und wie würde es sich im Laufe der Zeit wandeln? Wie haben sich Wortwahl, Grammatik, Ernährung, Kultur verändert? Genau das haben Forscher der Universität Harvard in Zusammenarbeit mit Google Books vier Jahre lang zu beantworten versucht.

Es hat zwar kein Mensch der Welt genug Zeit, um auch nur alle Bücher eines Jahrgangs zu lesen, aber mit der zunehmenden Digitalisierung von Büchern werden die Informationen von den Buchseiten gelöst und in eine computerverständliche Sprache übersetzt. Nicht alle etwa 129 Millionen Bücher, die jemals geschrieben wurden, sind digital verfügbar. Aber immerhin 15 Millionen Bücher will Internetgigant Google inzwischen in Universitätsbibliotheken rund um die Welt eingescannt haben.

Anzeige

Daraus wählte ein Team um den Wissenschaftler Erez Lieberman Aiden fast 5,2 Millionen Bücher aus, deren Text in guter Qualität vorlag und für die auch Metadaten verfügbar waren, also Angaben über Ort und Zeitpunkt der Publikation. Die Bücher gehen zurück bis ins 16. Jahrhundert und die Datenmenge ist wahrhaft astronomisch: 500 Milliarden Wörter, darunter 361 Milliarden in Englisch und 37 Milliarden in Deutsch. In einer geraden Linie würden sie zehnmal zum Mond und zurück reichen.

Indem die Forscher aus dieser Datenflut herausfiltern, wie häufig ein bestimmtes Wort in jedem Jahr auftaucht, können sie kulturelle und historische Trends herauslesen. Sie zeigen zum Beispiel, dass in englischen Büchern der Gebrauch des Wortes "Männer" in den vergangenen 200 Jahren kontinuierlich abgenommen hat und der Gebrauch von "Frauen" zugenommen hat. Die Häufigkeitsverteilung des Wortes "Influenza" stimmt mit den großen Pandemien überein. Und das Wort "Gott" wird seit 1850 immer seltener erwähnt. "Gott ist nicht tot, aber er benötigt einen neuen Publizisten", schreiben die Wissenschaftler. Die Untersuchung endet allerdings im Jahr 2000. Ob die Erwähnung von Gott nach den Terroranschlägen im September 2001 wieder zugenommen hat, können die Forscher daher nicht beantworten. Sogar die Essgewohnheiten haben die Wissenschaftler untersucht. Demnach hat das Wort Eiscreme um 1950 seinen größten Erfolg gefeiert, Pasta und Pizza tauchen im Englischen erst danach auf und Sushi erst im letzten Viertel des Jahrhunderts.

Die Forscher sind ehrgeizig. Nichts weniger als ein neues Feld wollen sie schaffen: die Kulturomik, die quantitative Analyse menschlicher Kultur. "Bisher sind quantitative Herangehensweisen an die Erforschung von Kultur daran gescheitert, dass es keine geeigneten Daten gab", sagt Jean-Baptiste Michel, einer der beteiligten Forscher. Das habe sich nun geändert. Und Jon Orwant von Google Books freut sich: "Jetzt ist es möglich mit einer computergestützten Analyse verborgene Trends in Geschichte, Kultur, Sprache und Denken zu entdecken." Vorbild sind die Biologen, die im Feld der Genomik das Erbgut hunderter Individuen entziffern, um Unterschiede und Gemeinsamkeiten zu verstehen und den Grundlagen der menschlichen Biologie auf die Schliche zu kommen. Nun wollen die Wissenschaftler das Erbgut der menschlichen Kultur genauso in Daten fassen, eine Art Humangenomprojekt der Geisteswissenschaften.

"Das ist eine hervorragende Arbeit, die unseren Erkenntnisstand in einer Reihe von Punkten bereichert", lobt Wolfgang Klein, Direktor des Max-Planck-Instituts für Psycholinguistik im niederländischen Nijmegen. So haben die Wissenschaftler auch die Größe des englischen Wortschatzes errechnet: 1900 gab es etwa 544 000 englische Wörter, im Jahr 2000 waren es 1.022.000. "Das überrascht sicher viele, weil immer behauptet wird, die Sprache werde ärmer und die Ausdrucksfähigkeit sinke. Aber das stimmt eben nicht", sagt Klein. Seine eigene Arbeit am deutschen digitalen Wörterbuch zeige für das Deutsche was die Arbeit aus Harvard für Englisch zeige: "Wir verlieren sehr wenige Wörter und gewinnen sehr viele dazu." Und viele Neuzugänge haben ihren Weg noch nicht in die gängigen Wörterbücher gefunden. Mehr als die Hälfte aller englischen Wörter, die die Forscher fanden, sind lexikalische "dunkle Materie".

Mithilfe der Daten lassen sich aber auch ganz andere Fragen beantworten. So haben die Wissenschaftler auch untersucht, wie sich die Erwähnung von berühmten Menschen mit der Zeit ändert. Ihr Ergebnis: Das Durchschnittsalter, in dem eine Person den Höhepunkt ihres Ruhmes erreicht, hat sich seit 1800 kaum geändert. Er wird mit etwa 75 Jahren erreicht. Das Alter, wenn Menschen erstmals berühmt werden, ist allerdings von 43 auf 29 Jahre gefallen, und die Berühmtheit steigt schneller an und erreicht ein höheres Maß. "Menschen werden heute berühmter als jemals zuvor, aber sie werden auch schneller vergessen", resümieren die Wissenschaftler.

Leserkommentare
    • Ijon
    • 17. Dezember 2010 20:08 Uhr

    Dass die Forscher so großspurig von sich schreiben, sie wollten mit quantitativer Sprachanalyse ein "neues Feld" schaffen, ist entweder auf mangelndes Wissen oder Hybris zurückzuführen.

    Siehe z.B: Die Flaggschiffe der Literatur zum englischen Sprachgebrauch bilden seit geraumer Zeit die sogenannten "Usage Dictionaries". Ich greife vor allem auf "Garner's Modern American Usage" zurück. Die letzte (dritte) Edition wurde erst 2009 veröffentlicht, die erste allerdings schon 1998. Im Vorwort zur ersten Ausgabe steht:

    "... I've supplemented entries with examples gleaned from two online databases: NEXIS and WESTLAW. For two decades, they have provided full-text searchability for millions of published documents [...] When I say, then, that ethicist is 400 times more common than ethician, I have searched vast databases of newspapers and journals to arrive at this round figure. As for those particular terms, the NEXIS databases [...] contain 10,138 published documents in which ethicist apperas, but only 25 documents in which ethician appears. ... when I say that self-deprecating [...] is is 50 times more common than self-depreciating [...], I have searched those same databases ..."

    Die Methode ist also weder neu (1998/2010) noch revolutionär. Zudem scheint die Google-Suchmaschine durchaus noch einige Macken zu haben. Wenn ich nach "self-deprecating" suche, bekomme ich in Google trotz der angeblich weit größeren Wortanzahl kein einziges Resultat.

  1. 2. ~ 1309

    Interessant und doch irgend wie daneben. Man stelle sich ein Buch vor, das heute erscheint und auf 400 Seiten in allen Zeilen nur 20-mal das Wort Gott enthält.

    Manchmal mag eine entdeckte Tendenz etwas aufzeigen. Aber die Gefahr der Falschbewertung, bereits aufgrund einer aus der gewohnten Gegenwart sich ergebenden Fragestellung, ist doch recht groß. Das Ganze ist eher etwas fürs Guiness Buch der Rekorde.

    Die Schwäche erkennt man auch an etwas, was ebenfalls der Autor des Artikels unterschätzte. Die kleinste, auftauchende Zahl ist 5.2 Millionen. Niemand könnte die Bücher, die in einem Jahrzehnt erscheinen, alle lesen - das ist so ziemlich eine extrem gewaltige Untertreibung. Nehmen wir aber mal diese Zahl der in die Untersuchung einbezogenen Werke, dann wären das für einen Leser mehr als 150 Bücher jeden Tag, die er bewältigen müsste. Er würde wohl mehr Zeit verbrauchen, um die Logistik zu meistern, als er in einem Buch verweilen kann. Oder: Um alle 5.2 Mio zu lesen, dürfte er bei einer 40 Stundenwoche zwischen 10. und 75. Lebensjahr für kein Buch mehr als zwei Minuten benötigen (ohne Holen und Wegräumen).

    • tmr
    • 18. Dezember 2010 1:04 Uhr

    So wie es aussieht, führt der im Copyright des Bildes angegebene Link auf eine Seite, die prinzipiell nur Werbung enthält; das Copyright des Bildes sollte statt (c) wordle.ORG vielleicht besser anders heissen. So lassen sich unter wordle.NET entsprechende Grafiken rendern, wordle.net ist wohl eher als ein Rendering-Service zu verstehen. Das (c) sollte richtigerweise eher auf den eigentlichen Schöpfer der Grafik zeigen, wie das ja implizit in den "Terms of use" aufgeführt wird.

    Reaktionen auf diesen Kommentar anzeigen
    Redaktion

    Danke für Ihren Hinweis. Das Copyright ist geändert.

    Beste Grüße:
    D. Hugendick

  2. Und wie im Artikel steht: es fehlen die inteligenten Fragen

  3. ich finde die Idee sehr sinnfrei und finde jeden euro verschwendet der dabei drauf geht, aus folgenden gründen:
    - Um eine eindeutiges Ergebnis zu bekommen, müsste man nahezu alle bücher digitalisieren, denn auch wenn es jetzt schon sehr viele sind, ist es nur ein bruchteil.
    - Wörter müssen immer im Kontext betrachtet werden. BSP: Gott, welchen trend will man denn daran erkennen, dass das wort gott mal mehr und mal weniger benutzt wird? Gar keinen, denn man kann ja in zwei richtungen argumentieren oder das Wort in einem ganz anderen Sinnzusammenhang als dem chr. verwenden.

    Mein Fazit: Nun wissen wir in welcher Zeit, welche Wörter mehr oder weniger verwendet werden, aber es bringt uns nicht ein einzigen cm in irgendeine richtung weiter. Eher im gegenteil, das Geld hätte man anders einsetzen können, und die Zeit und die Kraft auch....

  4. "Das überrascht sicher viele, weil immer behauptet wird, die Sprache werde ärmer und die Ausdrucksfähigkeit sinke. Aber das stimmt eben nicht"

    Dieses Ergebnis ist kein Grund zu behaupten, dass die Englischsprache reicher wird. Im Gegenteil, wer neue Wörter erschafft, macht dass oft weil ihm die Fähigkeit und Vorstellungskraft fehlt, die bereits bestehenden Wörter und grammatischen Strukturen zu nützen, um seine Denken zu erklären. Diese Situation könnte man mit der Entwicklung von Legos vergleichen: vor zwanzig Jahren bestanden die Legos nur aus wenige einfache und damit vielseitige Stücke, mit denen das Kind fähig war, alles aufzubauen; heute bestehen sie aus viele spezialisierten Stücke, die nur im Bau einer gegrenzten Anzahl von vorgeplanten Strukturen ohne Fähigkeit und Vorstellungskraft benützt werden können.

  5. die Datenmenge ist wahrhaft astronomisch: 500 Milliarden Wörter, darunter 361 Milliarden in Englisch und 37 Milliarden in Deutsch. In einer geraden Linie würden sie zehnmal zum Mond und zurück reichen.

    Das ist ja wieder ein super Vergleich!

  6. Deutlich zu merken, dass da schon wieder ein paar unruhig auf ihren Sesseln hin und her rutschen, wenn jetzt Google nicht nur Bücher einscannt, sondern auch noch Wissenschaftler anfangen, mit den Daten zu arbeiten, wie es zuvor nicht möglich war.

    Wörter zählen, ist das sinnvoll? Wir zählen und messen auch viele andere Sachen. Weil wir sie schon lange zählen, wissen wir auch, wie wir die Zahlen nutzen können. Die Wissenschaftszweige, die auf Google-Books aufbauen, müssen erst noch gegründet werden. In Deutschland ein bisschen später wegen des Urheberrechts.

Bitte melden Sie sich an, um zu kommentieren

  • Artikel Auf einer Seite lesen
  • Schlagworte Google | Wolfgang Klein | Harvard University | Peter Schaar | Buch | Erbgut
Service