Beachten Sie die Anmerkung des Autors am Ende des Artikels!

Signifikanz – das ist das Siegel, das ein naturwissenschaftliches Paper braucht, um glaubwürdig zu sein. Liefert ein Experiment ein signifikantes Ergebnis, dann wird daraus häufig geschlossen, dass die hinter der Arbeit stehende Hypothese mit hoher Wahrscheinlichkeit korrekt ist. Aber das ist ein Fehlschluss.

Es hat sich in der Wissenschaft eingebürgert, ein Ergebnis als signifikant zu bezeichnen, wenn die Wahrscheinlichkeit, dass es nur durch Zufall zustande gekommen ist, kleiner als fünf Prozent ist – im wissenschaftlichen Jargon: "p < 0,05". Nehmen wir an, beim Glücksspiel in einer dunklen Spelunke gibt Ihnen jemand einen Würfel, und Sie mutmaßen, dass dieser Würfel gezinkt sein könnte. Konkret: dass er fast immer eine Eins würfelt und Sie verlieren lässt. Sie testen diese Vermutung nun gegen die sogenannte "Nullhypothese", die lautet in diesem Fall: Der Würfel ist ein ganz normaler Würfel, die Zahlen von Eins bis Sechs erscheinen mit derselben Wahrscheinlichkeit von einem Sechstel.

Sie würfeln einmal: Es erscheint eine Eins. Sie würfeln noch einmal – wieder eine Eins. Die Wahrscheinlichkeit, mit einem fairen Würfel zweimal hintereinander eine Eins zu würfeln, beträgt ein Sechsunddreißigstel, also etwa 2,8 Prozent. Das Ergebnis ist also ohne Zweifel signifikant, "p < 0,03" würde ein Forscher sagen, und viele neigen tatsächlich dazu, an dieser Stelle das Experimentieren einzustellen und die Arbeit bei einem renommierten Journal einzureichen. Denn, so folgern sie, damit ist ja die Hypothese mit über 97-prozentiger Wahrscheinlichkeit wahr!

Doch das ist ein Denkfehler. Um die Aussagekraft eines Ergebnisses beurteilen zu können, reicht die Signifikanz alleine nicht aus. Hätten Sie den Würfel in einem seriösen Geschäft gekauft, würden Sie trotz der beiden Einsen nicht ernsthaft glauben, einen betrügerischen Würfel erworben zu haben. Wie sehr man ein signifikantes Ergebnis als Zeichen für die Wahrheit der Hypothese deutet, sollte also davon abhängen, für wie wahrscheinlich man die Hypothese vor dem Versuch gehalten hat.

Die Statistiker haben sich lange dagegen gewehrt, solche Überlegungen in ihre Berechnungen einzubeziehen, weil ihnen etwas Subjektives anhaftet: Wie kann meine Vor-Einschätzung einer Hypothese in die Berechnung ihrer Korrektheit einfließen? In den vergangenen Jahren aber hat sich die Überzeugung durchgesetzt, dass ohne eine solche Annahme überhaupt nicht abzuschätzen ist, inwieweit ein signifikantes Testergebnis eine Hypothese bestätigt. Es macht zum Beispiel einen Unterschied, ob 10 oder 50 Prozent der Substanzen, die man auf eine Wirkung untersucht, eine Wirkung versprechen.

Berechnet werden diese Wahrscheinlichkeiten mit der sogenannten Bayesschen Statistik, die von dem englischen Pfarrer Thomas Bayes im 18. Jahrhundert entwickelt wurde und in der Mathematik lange ein Schattendasein führte. Grob gesprochen, laufen ihre Formeln darauf hinaus, dass außerordentliche Behauptungen auch außerordentlich signifikante Ergebnisse verlangen, soll man sie für plausibel halten.

Um die Infografik anzuzeigen, klicken Sie bitte auf das Bild

Wie erhöht man die Signifikanz von Experimenten? Eigentlich ganz einfach: Man wiederholt sie. Nach zwei Einsen hält man einen Würfel vielleicht noch nicht für gezinkt, aber nach vier Einsen hintereinander glaubt kaum noch jemand, dass es hier mit rechten Dingen zugeht. Der Signifikanzwert verbessert sich von 2,8 auf 0,08 Prozent. Aber die reine Reproduktion bereits veröffentlichter Experimente trägt einem Wissenschaftler kaum Lorbeeren ein.

Auch die Medien tragen dazu bei, dass zweifelhafte Ergebnisse veröffentlicht werden. Forschung bekommt umso mehr Aufmerksamkeit, je überraschender das Ergebnis ist. Die Zeitungen lieben Geschichten, die anfangen mit "anders, als die Wissenschaft seit Jahrhunderten glaubte ...". Aber was die Wissenschaft seit Jahrhunderten glaubt, ist meist auch gut durch Experimente abgesichert – und kann eigentlich durch eine einzige Arbeit nicht erschüttert werden, sei sie noch so signifikant. Schlagzeilen macht sie trotzdem.

Anmerkung des Autors: Das Beispiel mit den beiden Würfeln, mit dem ich den Begriff der Signifikanz griffig verdeutlichen wollte, ist leider falsch gewählt und auch falsch berechnet worden. Dadurch, dass die Hypothese "Der Würfel ist gezinkt" selbst eine Wahrscheinlichkeitsaussage ist (nämlich, dass der Würfel überdurchschnittlich oft eine Eins zeigt), wird die Berechnung der Signifikanz erheblich komplizierter, als sie hier dargestellt ist. Das vermeintlich simple Beispiel ist also ein unnötig kompliziertes. Die allgemeine Aussage des Textes wird davon aber nicht beeinträchtigt.