Bis kurz vor der Bundestagswahl werden wir dieses Mal mit Wahlumfragen behelligt. Wie gut derlei Erhebungen für eine Demokratie sind, ist umstritten – wozu noch wählen gehen, wenn das Ergebnis bereits festzustehen scheint? Auf jeden Fall aber, darüber besteht Einigkeit, sollten die Umfragen neutral sein. Doch sind sie das? Immer wieder wird einzelnen Meinungsforschungsinstituten der Vorwurf gemacht, bestimmte Parteien systematisch zu bevorzugen oder zu benachteiligen. Das wäre, sollte es sich bestätigen, höchst verwerflich.



Um die Neutralität der Institute zu überprüfen, haben wir die Ergebnisse vergangener Umfragen visualisiert. Hier zunächst die Ergebnisse der Sonntagsfrage aller Institute aus den vergangenen 14 Jahren, eingefärbt nach Partei:

© ZEIT ONLINE - Gregor Aisch

Um etwaige systematische Abweichungen entdecken zu können, greifen wir einzelne Parteien heraus, beispielsweise die SPD:

© ZEIT ONLINE - Gregor Aisch

Der zeitliche Verlauf der Umfragen allein ist bereits lehrreich, zeigt er doch, wie sie sich nach der Wahl an die realen politischen Verhältnisse im Land anpassen. Dazu später mehr. Im nächsten Schritt haben wir den institutübergreifenden Trend über die Grafik gelegt. Diese Linie verbindet einfach den Median aller Umfragewerte pro Quartal.

© ZEIT ONLINE - Gregor Aisch





Blick auf einzelne Institute

Ausgehend von dieser Grafik können wir nun mögliche systematische Abweichungen einzelner Institute studieren. In den folgenden Darstellungen werden jeweils die Daten eines Instituts in roten Punkten hervorgehoben, während die übrigen Umfragewerte aller anderen Institute als kleine graue Punkte im Hintergrund zu sehen sind. Die Linie stellt den oben beschriebenen Median-Trend über Quartale dar.

Das erste Diagramm zeigt die SPD-Umfragen, die von TNS Emnid veröffentlicht wurden. Die Daten sehen neutral aus: Manchmal liegen die Werte über dem Durchschnitt, manchmal darunter.

© ZEIT ONLINE - Gregor Aisch

Doch nicht alle Ergebnisse zeigen dieses beruhigende Bild. So lassen die Umfragen von Infratest dimap seit etwa 2007 eine leichte Tendenz zugunsten der SPD erkennen. Eher selten lagen die Prognosen in den vergangenen sechs Jahren unter dem Durchschnitt.

© ZEIT ONLINE - Gregor Aisch

Die Daten von Forsa bieten ein erheblich dramatischeres Bild. Ebenfalls seit etwa 2007 werden die Forsa-Umfragen zur SPD ausgesprochen pessimistisch, sie weichen stark vom Median der Institute ab:

© ZEIT ONLINE - Gregor Aisch

Um die Tendenzen noch klarer zeigen zu können, nutzen wir ein so genanntes Mittelwert-Differenz-Diagramm. Dessen Idee ist simpel: Anstatt sowohl Median als auch die einzelnen Werte darzustellen, benutzen wir den Durchschnitt als Null-Linie und stellen nur die Abweichungen vom Median dar.

In der folgenden Darstellung bedeutet ein Wert von -5 Prozent, dass ein Umfragewert fünf Prozent unter dem Mittel aller im selben Quartal veröffentlichten Umfragen lag. Wieder sehen wir bei Forsa den Wechsel von neutralen Umfragen hin zu tendenziell pessimistischen Umfragen. Es ist bemerkenswert, dass dieser Wechsel in etwa zur Bundestagswahl 2005 stattfand, bei der die rot-grüne Koalition ihre Regierungsmehrheit verloren hat. Nach der Wahl gab es zwar noch einzelne positive Ausreißer, aber die übergroße Mehrheit der Umfragen lag unter dem Durchschnitt.

© ZEIT ONLINE - Gregor Aisch

Um dies noch einfacher sehen zu können, stellen wir die Median-Abweichungen selbst ebenfalls als Trendlinie dar, als durchschnittliche Tendenz je Quartal. Es ist erstaunlich, dass diese Tendenz für die SPD bei Forsa über einen Zeitraum von sechs Jahren konstant bei etwa minus zwei Prozent lag.

© ZEIT ONLINE - Gregor Aisch

Zufällige Abweichungen und systematische Fehler

An dieser Stelle unserer Reise durch die Umfragen-Historie ist es hilfreich, uns die tatsächlichen Auswirkungen solcher Daten bewusst zu machen: Das Forschungsinstitut Forsa etwa veröffentlicht Wahlprognosen, in denen die SPD über einen Zeitraum von sechs Jahren im Mittel etwa zwei Prozent schlechter eingeschätzt wird als in den Umfragen aller Institute. Alle Institute aber geben an, regelmäßig einen repräsentativen Ausschnitt der Bevölkerung zu befragen. Selbst wenn wir berücksichtigen, dass alle Umfragen fehlerbehaftet sind, kann es kaum zu derartigen Ergebnissen kommen. Es sei denn, wir haben es mit einem systematischen Fehler in der Umfrage zu tun, also einem Fehler, der wieder und wieder auftritt, egal wie oft man die Umfrage durchführt.

Wie kann es zu so einem systematischen Fehler kommen? Zum einen könnte es sein, dass Forsa eine andere Definition von einem repräsentativen Wähler-Querschnitt zugrunde legt, und folglich mit jeder Umfrage schon in der Auswahl der befragten Personen eine Verzerrung erzeugt. Eine andere Möglichkeit könnte in der genauen Wortwahl der Frage liegen – das Formulieren von Meinungsumfragen ist eine Wissenschaft für sich. Auch ist der Kontext entscheidend, in dem die Sonntagsfrage gestellt wird. Oft werden bei Telefonanrufen mehrere Umfragen nacheinander durchgeführt.

Leider können wir nicht genauer analysieren, wie die systematischen Abweichungen zustande kommen, denn die Institute veröffentlichen keine Rohdaten ihrer Befragungen. Sie befragen aus Effizienzgründen nur eine kleine Stichprobe (1.000-2.000 Personen bei mehr als 60 Millionen Wahlberechtigten), so dass die erhobenen Daten teilweise zufällige Abweichungen von mehreren Prozentpunkten enthalten können. Deswegen müssen die Institute die Ergebnisse vor der Veröffentlichung noch korrigieren und von den Zufallsabweichungen befreien.

Und genau hier liegt die dritte mögliche Fehlerquelle: die von den Instituten verwendeten Algorithmen und Heuristiken zur Korrektur und Glättung der Umfrageergebnisse. Leider werden auch diese Verfahren unter Verschluss gehalten. Betriebsgeheimnis.

Mehr Beispiele gefällig?

Die bisherigen Beispiele sind leider keine Ausnahmen. Auch bei der Forschungsgruppe Wahlen (FGW), die Umfragen im Auftrag des ZDF durchführt, gibt es systematische Abweichungen. Zwischen 2000 und 2013 hat die FGW die traditionellen Volksparteien CDU und SPD überdurchschnittlich positiv eingeschätzt, zu Ungunsten der kleineren Parteien. Wie das folgende Diagramm zeigt, wurde die CDU etwa zwischen 2005 und 2009 um durchschnittlich fünf Prozent über den Ergebnissen der anderen Institute angegeben.

© ZEIT ONLINE - Gregor Aisch

© ZEIT ONLINE - Gregor Aisch

Zur selben Zeit wurden die kleinen Parteien systematisch schlechter beurteilt, was am Beispiel der Linken gut zu sehen ist:

© ZEIT ONLINE - Gregor Aisch

Zwischen 2005 und 2009 wurde die Linke von der Forschungsgruppe Wahlen etwa 4 Prozent schlechter eingestuft als von anderen Instituten. Interessant ist auch, wie die FGW ihre Prognosen schlagartig korrigierte, nachdem die Linke respektable 12 Prozent bei der Bundestagswahl 2009 einfuhr.

© ZEIT ONLINE - Gregor Aisch

Die hier gezeigten Diagramme wurden mit der freien Statistik-Software R erzeugt. Der Quellcode für die Diagramme ist auf Github verfügbar.