Unternimmt ein Forscher ein Experiment, ist er gespannt auf das Ergebnis – egal ob es um die Wirksamkeit eines neuen Medikaments geht, um das Verhalten von Menschen oder das von Elementarteilchen. Genauso wichtig wie das Ergebnis ist aber die Frage, ob man sich darauf verlassen kann: Spiegelt das Studienresultat einen tatsächlichen Effekt wider? Denn es ist ja möglich, dass die meisten Patienten zufällig gesund wurden oder die meisten Elementarteilchen zufällig eine bestimmte Reaktion zeigten. Dann würde das Ergebnis des Versuchs nichts über die Wirksamkeit der Arznei oder die Beschaffenheit der Welt aussagen.

Um Ergebnisse zu ermitteln, die auf tatsächlichen Effekten beruhen, nutzen Forscher traditionell eine statistische Kenngröße, den p-Wert. Er gibt an, wie groß die Wahrscheinlichkeit ist, die beobachtete oder eine stärkere Wirkung zu messen, wenn es in Wahrheit gar keine Wirkung gibt. Liegt dieser p-Wert über fünf Prozent, gilt ein Resultat üblicherweise als "nicht signifikant" – und verschwindet oft in der akademischen Mülltonne. Der p-Wert entscheidet deshalb über ungeheuer viel: über die Veröffentlichung von Studien, über die Vergabe von Stellen, über die Verteilung von Forschungsgeld.

Der p-Wert ist also eine zentrale Größe im Forschungsbetrieb. Bloß, ist das auch gut? "Schickt die statistische Signifikanz in Rente", haben drei Forscher im Wissenschaftsmagazin Nature gefordert. Innerhalb einer Woche unterschrieben mehr als 850 ihrer Kollegen den Aufruf, mehr als 16.000 Twitter-Nutzer wiesen binnen wenigen Tagen auf den Appell hin. Damit liegt er auf Platz drei des globalen Aufmerksamkeits-Rankings aller seit 2012 erfassten wissenschaftlichen Publikationen. Kurz gesagt: Hier gibt es Diskussionsbedarf.

Aber wo liegt eigentlich das Problem? "Die statistische Signifikanz führt zu Ja-Nein-Entscheidungen. Das ist einfach, aber Wissenschaft ist meist nicht schwarz-weiß", sagt der Biologe Valentin Amrhein von der Universität Basel, einer der drei Verfasser des Aufrufs. "Deshalb ist die statistische Signifikanz oft schädlich." Ein Beispiel nennen er und die beiden Statistiker Sander Greenland und Blakeley McShane in ihrem Artikel: Zwei Forschergruppen untersuchten die Nebenwirkungen entzündungshemmender Medikamente. Beide fanden einen Anstieg des Risikos für Herzrhythmusstörungen um 20 Prozent. Bei einer der Gruppen war das Ergebnis statistisch signifikant, bei der anderen nicht, weil weniger Patienten untersucht worden waren oder weil die Ergebnisse stärker streuten. Die Schlussfolgerung des zweiten Teams: Es gebe keinen Zusammenhang zwischen den Medikamenten und Herzrhythmusstörungen. Das allerdings sagt der p-Wert überhaupt nicht aus. "Offen gesagt, wir haben [...] solche Behauptungen satt", schimpfen die Forscher in Nature.

"Mit der Signifikanz ist es wie mit Alkohol. Sie verführt dazu, vorschnelle Entscheidungen zu treffen", sagt Amrhein. "Und häufig sieht man die Welt nicht mehr, wie sie ist." Der Suchteffekt der Signifikanz beruhe darauf, dass sie eine angenehme Vereinfachung verspreche. Der Biologe umschreibt es so: "Man drückt auf einen Knopf, der Computer spuckt einen kleinen p-Wert aus, und schon strömen die Belohnungshormone beim Forscher."

Die Autoren ernten neben viel Zustimmung auch Kritik: Sie lieferten keine Lösung. "Wir zeigen, dass die alte einfache Lösung oft falsch ist. Jetzt wollen die Leute eine neue einfache Lösung", sagt Amrhein. "Die gibt es aber nicht." Einen ganz ähnlichen Eindruck erweckt auch jener Artikel von drei Statistikern, mit dem die Fachzeitschrift The American Statistician ihre aktuelle Sonderausgabe zu diesem Thema eröffnet: Auf 15 von 20 Seiten beschreiben die Experten da verschiedenste Lösungsansätze. Und die Schwierigkeit liegt nicht darin, sich für einen davon zu entscheiden – sondern darin, völlig anders mit wissenschaftlichen Ergebnissen umzugehen als bisher.

Forscher müssten sich die einfachen Ja-Nein-Entscheidungen abgewöhnen und Unsicherheiten akzeptieren, fordern Valentin Amrhein und seine Kollegen. Statt Studien in zwei Kategorien zu sortieren – "signifikant" und "nicht signifikant" –, sollten Wissenschaftler die Bandbreite ihrer Ergebnisse wiedergeben, sagt Amrhein: "Statistik ist nicht dazu da, die Unsicherheit zu reduzieren, sondern dazu, sie zu beschreiben." In ihrem Kommentar malen die drei Autoren schon einmal eine Welt aus, in der nicht mehr nur ein einziger Wert über ungeheuer viel entscheidet: "Die Leute werden weniger Zeit mit statistischer Software verbringen und mehr Zeit mit Denken."