In Wahlbörsen wetten Spieler auf Stimmenanteile von Parteien. Was für die Börsianerinnen Spaß ist, bedeutet für Unis Forschung und für Prognostiker ein Geschäftsmodell, denn man kann aus den Kursen Stimmungsbilder erstellen und Wahlergebnisse prognostizieren – eine Alternative zu Wahlumfragen.



ZEIT ONLINE: Haben die Spieler an Ihrer Wahlbörse die Landtagswahlen in Sachsen, Brandenburg und Thüringen korrekt vorhergesagt?

Walter Mohr: In Sachsen waren wir alle einigermaßen gut dabei. In Brandenburg kann man aber von einem kollektiven Versagen aller Institute sprechen. Praktisch haben wir alle die CDU, die Grünen, die Linke und die FDP zu hoch sowie die SPD und die AfD zu tief bewertet. Wenn wir die Prognosen in Schulnoten umrechnen, dann wäre das eine klare Fünf. Bei der Landtagswahl in Thüringen haben dann alle Institute ihre Lektion aus den schlechten Voraussagen in Sachsen und Brandenburg gelernt: Die Prognosequalität entspricht ziemlich genau dem Durchschnitt aller aktuellen Landtagswahlen, also einer Schulnote zwischen gut und befriedigend. Die Prognosen der Bürgerschaftswahl im Mai in Bremen hatten übrigens die Note Eins verdient. Da erreichte unsere Wahlbörse ein neues deutsches Rekordergebnis.

ZEIT ONLINE: Wie funktioniert so eine Wahlbörse genau?

Walter Mohr: Das ist im Prinzip genau wie eine richtige Börse, nur dass keine Firmenanteile gehandelt werden, sondern Wahlanteile von Parteien. Eine Parteiaktie wird also gekauft, wenn man ihr mehr als den gegenwärtigen Kurs oder den vorliegenden Angebotspreis zutraut. Bei einem Verkauf ist es genau umgekehrt. Nach der Wahl wird dann für jeden Spieler aus dem wirklichen Wahlergebnis die Rendite berechnet. Je genauer man das Ergebnis vorhergesagt hat, desto höher die Rendite. Bei Umfragen geben die Befragten ihre persönliche Wahlabsicht bekannt. Die Börsenteilnehmer beobachten stattdessen die Wahlentwicklung und wetten Geld, wie die Wahl ausgehen wird. Man kann das Schwarmintelligenz nennen.

ZEIT ONLINE: In Bremen hatte der Schwarm den richtigen Schlusskurs geschätzt, in Brandenburg nicht. Macht die AfD die Beobachtungen schwieriger?

Walter Mohr: Grundsätzlich ja, aber unterschiedlich: Bei den Umfrageinstituten geben potenzielle AfD-Wähler wegen sozialer Unerwünschtheit häufig nicht ihre wahre Präferenz an, sondern manchmal ersatzweise die CDU. Bei speziellen Internetumfragen und teilweise auch bei Wahlbörsen ist es wegen der Anonymität und der hohen Medienaffinität von AfD-Sympathisanten genau umgekehrt. Hier liegen die Werte eher zu hoch. Insgesamt ist die Prognosequalität aber im Vergleich zu früher nicht schlechter geworden, weil den etablierten Umfrageinstituten durch andere Methoden eine starke Konkurrenz erwachsen ist.



Walter Mohr ist Mathematiker und Wirtschaftswissenschaftler. Er lehrte lange Zeit an der Universität Kiel und an der FH Flensburg Statistik und angewandte Mathematik, bevor er das Prognoseinstitut Prognosys für Wirtschafts-, Wahl- und Sportprognosen gründete. Zusammen mit Frank W. Püschel hat er 2018 das Buch "Wahlprognosen – analysiert und hinterfragt" veröffentlicht. © privat

ZEIT ONLINE: Wenn Sie diese Prognosequalität messen, dann vergleichen Sie die letzten Vorhersagen mit den Wahlergebnissen Tage später. Da kann man sagen: Eine Umfrage drei oder fünf Tage vor der Wahl gibt eben nicht exakt die Stimmung am Wahltag wieder…

Walter Mohr: Das ist Haarspalterei. Die letzte Umfrage, die von einem Institut meist in der Wahlwoche abgegeben wird, definieren wir als Wahlprognose.



ZEIT ONLINE: …und die Methoden sind doch sehr unterschiedlich. Da gibt es Institute, die eine feste Auswahl von Menschen befragen, es gibt Zufallsstichproben, Einzelexperten und es gibt Institute, die Menschen einladen, ihre Meinung abzugeben. Vergleichen Sie da nicht Äpfel mit Birnen?

Walter Mohr: Am Ende müssen sich alle Voraussagen am Wahlergebnis messen lassen. Wir messen zum Beispiel unter Einbeziehung des statistischen Fehlers, mit der klassischen Fehlerformel für Zufallsstichproben, wobei wir standardisiert von 1.000 Befragten ausgehen. Und da fällt auf, dass die von den Umfrageinstituten angegeben Fehlerintervalle deutlich zu klein sind. Die Intervalle sollen mit einer Wahrscheinlichkeit von 95 Prozent das wahre Endergebnis enthalten. Empirisch sind es jedoch deutlich weniger. Bei Bundestagswahlen klappt es nur in 80 Prozent, bei Landtagswahlen in 77 Prozent aller Fälle. Und wir haben 600 Prognoseintervalle bei Bundestagswahlen und 1.000 bei Landtagswahlen untersucht!

ZEIT ONLINE: Warum ist der Fehler größer?

Walter Mohr: Es liegt zum Beispiel daran, dass nur einer bis drei von zehn Befragten überhaupt eine Antwort geben. Außerdem besteht die Gefahr, dass teilweise falsche Auskünfte gegeben werden, wie etwa bei der AfD. Daher sind die Stichproben einfach nicht mehr zufällig.



ZEIT ONLINE: Aber solche Fehler korrigieren die Institute doch nachträglich? Und sie wählen ihre Befragten so aus, dass sie Deutschland repräsentieren?

Walter Mohr: Repräsentativität wird bei Umfrageinstituten meist so erzeugt: Man bildet die Häufigkeitsverteilung von Merkmalen wie Alter, Geschlecht, Bildungsgrad oder Einkommen in der Bevölkerung nach, indem man die Anteile bei den Befragten nachträglich so gewichtet, dass sie den Anteilen in der Grundgesamtheit entsprechen. Haben sie zum Beispiel in der Stichprobe weniger junge Männer als in der Wahlbevölkerung, so werden die Meinungen dieser Personen stärker berücksichtigt.



ZEIT ONLINE: Wo ist das Problem?

Walter Mohr: Es ist gar nicht klar, ob durch Repräsentativität die Prognosegüte überhaupt deutlich verbessert wird. Ein Beispiel: Die Forschungsgruppe Wahlen veröffentlicht bei Umfragen zu Bundestagswahlen sowohl eine "politische Stimmung" als auch eine "Projektion". Die politische Stimmung ergibt sich, indem man die Rohdaten aus der Befragung durch sozialstrukturelle Gewichtungen in repräsentative Daten überführt. Für die Projektion werden diese Daten noch weiter bearbeitet. Da gehen dann mittel- und langfristige Bindungen der Wähler, taktisches Wahlverhalten oder andere institutsspezifische Erfahrungen ein.

Wir haben in den Daten der Forschungsgruppe Wahlen "politische Stimmung" und "Projektionen" jeweils neun Tage vor den letzten fünf Bundestagswahlen verglichen. Bei den repräsentativen Daten für die politische Stimmung betrug der mittlere absolute Fehler über alle fünf Wahlen insgesamt 2,2 Prozent. Das ist ein ziemlich schlechtes Resultat. Die Projektionen lagen mit einem mittleren absoluten Fehler von 1,4 Prozent deutlich besser. Offenbar haben die repräsentativitätserzeugenden Maßnahmen in diesem Fall nur wenig gebracht. Erst die zugehörigen Projektionen bewirken eine deutliche Verbesserung.

ZEIT ONLINE: Man könnte aber sagen: Umfrageinstitute versuchen wenigstens, die Umfrageergebnisse in Richtung Repräsentativität und Korrektheit zu trimmen. Wahlbörsen können das nicht von sich behaupten.

Walter Mohr: Bei Wahlbörsen spielt Repräsentativität überhaupt keine Rolle. Die Mitspieler unterscheiden sich deutlich von der Normalbevölkerung, weil sie z. B. ein erhöhtes Politikinteresse haben und ihre Vorstellungen in Börsenaktivitäten umsetzen können. Aber wer sagt denn, dass Repräsentativität die Prognosen genauer macht? Unsere Ranglisten in Bezug auf die verschiedenen Methoden für Bundes- und Landtagswahlen sprechen eine deutliche Sprache: Als Gruppe betrachtet, landen die Umfrageinstitute hinter den Wahlbörsen und den Spezialmethoden auf dem dritten Platz. Repräsentativität ist nicht, wie seit über 50 Jahren propagiert wird, der Goldstandard. Sie ist allenfalls Bronze wert. Aber: Die Umfrageinstitute unterscheiden sich sehr, was die Prognosegüte angeht. So liegt Forschungsgruppe Wahlen in der Rangliste der 16 aktuellen Landtagswahlen klar vorn. Es folgen mit deutlichem Abstand infratest dimap, das neue mit Internetmethoden arbeitende Institut Civey sowie Insa und Forsa.

ZEIT ONLINE: Apropos Insa: Dieser Firma wird immer wieder eine gewisse Nähe zur AfD unterstellt. Kann man so etwas in den Zahlen sehen?

Walter Mohr: Wir haben in einer Studie deutschlandweite Projektionen aller Institute von 2017 bis 2018 für jede Woche zusammengestellt und daraus jeweils die Mittelwerte berechnet. Im nächsten Schritt haben wir analysiert, ob es auffällige Abweichungen dazu gibt. Insa hat die AfD in über 90 Prozent der Fälle höher als das Wochenmittel bewertet, und Forsa in etwa 90 Prozent der Fälle tiefer.



ZEIT ONLINE: Was nicht bedeutet, dass die Werte falsch sind.

Walter Mohr: Das stimmt. Es wird auch immer gesagt, Insa kenne die AfD besser, schließlich habe Insa ja auch bei der Bundestagswahl 2017 die AfD am besten eingeschätzt. Dieser korrekte Einzelfall kann aber einen Statistiker nicht voll überzeugen. Bei der Gesamtheit aller Landtagswahlen sieht man, dass Insa eher schlecht abschneidet. Forsa ist allerdings noch schlechter.