Wenn Wissenschaftler etwas herausgefunden haben – wann kann man sich auch tatsächlich darauf verlassen? Eine Antwort lautet: Wenn Fachkollegen die Studie überprüft haben. Eine andere: Wenn sie in einer renommierten Fachzeitschrift veröffentlicht wurde. Doch manchmal reicht auch beides zusammen nicht aus, wie Forscher jetzt gezeigt haben. Und zwar auf die beste und aufwendigste Art: Sie haben die zugrundeliegenden Experimente wiederholt. Und geschaut, ob noch einmal dasselbe dabei herauskommt.

Es ging um 21 sozialwissenschaftliche Studien aus den Journalen Nature und Science. Mehr Renommee geht nicht. Und natürlich werden dort eingereichte Arbeiten von Experten geprüft (Peer Review). Trotzdem kam in fast 40 Prozent der Fälle nicht noch einmal dasselbe heraus – sondern meistens: gar nichts.

"Ich hätte ein besseres Ergebnis erwartet, schließlich ging es um Nature und Science", sagt John Ioannidis, Medizinstatistiker von der Stanford University. Er ist einer der profiliertesten Kämpfer gegen schlechte Wissenschaft und normalerweise nicht zimperlich mit seinen Kollegen. Initiiert hat den Studien-TÜV der amerikanische Sozialpsychologe Brian Nosek, Gründer des Center for Open Science. Er meint: "Es könnte auch sein, dass gerade in solchen Zeitschriften die Arbeiten weniger solide sind, weil die Top-Journale sexy Ergebnisse vorziehen."

Um welche Art von Ergebnissen es konkret ging? Ein paar Beispiele:

  • Jobkandidaten wurden besser bewertet, wenn ihr Lebenslauf auf einem schweren statt einem leichten Klemmbrett beurteilt wurde.
  • Probanden, die mit Bildern der Rodin-Skulptur "Der Denker" auf analytisches Denken eingestimmt wurden, gaben an, weniger stark an Gott zu glauben.
  • Personen, die schwierige Wissensfragen gestellt bekamen, die sie teilweise nicht beantworten konnten, dachten häufig an Computer. (Hypothese: Wer auf eine Wissenslücke stößt, erwägt heute schnell eine Suche per Google.)
  • Wer literarische Texte gelesen hatte, konnte sich besser in andere hineinversetzen.

Klingt alles sexy. Weil die Resultate überraschend sind, weil sie unbewusste Einflüsse auf unser Verhalten aufzudecken scheinen, weil sie nah am Leben sind und an aktuellen Streitfragen, etwa ob wir uns zu sehr auf Google verlassen. Nur ließen sich all diese Ergebnisse nicht bestätigen (im Fachjargon: replizieren). Zwar bedeutet das nicht zwangsläufig, dass sie falsch, gepfuscht oder gefälscht sind. Aber es bedeutet, dass man sich nicht auf sie verlassen kann.

Selbst wenn bei Wiederholung der Experimente ähnliche Effekte auftraten, waren diese merklich kleiner als im Original, durchschnittlich nur dreiviertel so groß. Wenn man die nicht-replizierbaren Studien einrechnet, schrumpft der durchschnittliche Effekt aller Wiederholungen sogar auf die Hälfte. Deshalb sagt Forschungskritiker John Ioannidis: "Wenn man einen Artikel über ein sozialwissenschaftliches Experiment in Nature oder Science liest, muss man den Effekt gleich halbieren."

In ähnlichen TÜV-Projekten ließen sich auch 64 Prozent der Psychologie-Studien und 39 Prozent der Ökonomie-Studien nicht bestätigen. In der Pharmabranche und der Krebsforschung ergaben Stichproben noch höhere Pleite-Quoten. Und auch die vermeintlich harten Naturwissenschaften haben Probleme, sagt Ioannidis: "Es gibt Bereiche in der Chemie, in denen es nicht viel besser aussieht." Brian Nosek wundert das nicht. "Die Anreize sind in allen Disziplinen dieselben: Man muss viel publizieren, in möglichst prestigeträchtigen Journalen, und dafür braucht man aufregende Ergebnisse, die sich als einfache Geschichte erzählen lassen." Ein altes Problem.