Die Not mit den Noten

Von Günter Trost

Jedes Jahr sind es einige zehntausend mehr: Zwanzigjährige, die das Gymnasium mit guten und sehr guten Noten verlassen und die doch wenig später erfahren, daß ihnen ihr Studienfach und die Hochschule ihrer Wahl für Jahre verschlossen bleiben. Plötzlich haben Banalitäten schicksalhafte Bedeutung – etwa die Frage, ob ein Bewerber um einen Studienplatz in Medizin in irgendeinem Nebenfach wie Geschichte oder Erdkunde irgendwann einmal eine Eins oder nur eine Zwei erhielt. Ein solcher Unterschied entscheidet bei der Durchschnittsnote im Abiturzeugnis über die erste Stelle hinter dem Komma und damit auch über Studien- und Berufschancen eines Menschen.

Die beklemmende Bedeutung, die minimale Differenzen auf der Notenskala von eins bis sechs haben, fordert zwei Fragen heraus. Erstens: Sind Schulzensuren – genauer: der Bewertungsprozeß, der sich in ihnen ausdrückt – wirklich vergleichbar und so genau zu messen, daß sie die überaus wichtige Entscheidung rechtfertigen, ob ein Studienplatz vergeben oder verweigert wird? Zweitens: Erlauben Schulnoten überhaupt Schlüsse auf die Eignung fürs Studium? Die erste Frage zielt also auf die Präzision des Meßinstruments Schulzensur, die zweite auf den Prognosewert der Schulnote im Hinblick auf die Studienleistung. Zum Glück gibt es im In- und vor allem imAusland eine ganze Menge empirischer Untersuchungen, die Teilaspekte dieser Fragen beantworten. Trägt man die Mosaiksteinchen dieser wissenschaftlichen Einzelbefunde zusammen, so zeichnet sich insgesamt ein überraschend einheitliches Bild ab.

Die Noten derselben Schüler in denselben Fächern verändern sich über die Jahre hin beträchtlich, wie der Saarbrücker Psychologie-Professor Orlik bei einem Vergleich der einzelnen Zensuren im Zeugnis der mittleren Reife mit den Noten im Abiturzeugnis nachwies: sie stimmten nur etwa in der Hälfte aller Fälle überein. Viele Schüler, deren Leistung in Mathematik zum Beispiel am Ende der 10. Klasse noch mit einer Zwei honoriert worden war, hatten am Ende der Oberschule eine Vier – oder umgekehrt. Es ist wirklich nicht anzunehmen, daß die Fähigkeiten, die für den schulischen Erfolg bestimmend sind, in einer so kurzen Zeit in einem solchen Ausmaß schwanken, wie dies die schwankenden Zensuren glauben machen. Dafür ist vielmehr ein ganz anderer Grund verantwortlich: die Tatsache nämlich, daß die verschiedenen Lehrer, die dieselben Schüler im Lauf der Schulzeit unterrichten, nur äußerst selten beim Notengeben übereinstimmen.

Selbst ein und derselbe Lehrer beurteilt dieselbe Arbeit zu verschiedenen Zeitpunkten ganz unterschiedlich. Das ist das Ergebnis einer sorgfältigen amerikanischen Untersuchung, die bereits 1930 gemacht wurde. Dieselben Geschichts- und Geographiearbeiten wurden durch dieselben Prüfer im Abstand von nur elf Wochen zweimal und dabei derart unterschiedlich bewertet, daß man zweifeln möchte, ob die Prüfer beide Male wirklich dieselben waren. Bei einigen stimmte nur etwa jede vierte Note der Erst- mit der Zweit-Korrektur überein. Von einem zuverlässigen Meßinstrument ist zu fordern, daß es zu ganz verschiedenen Zeiten die gleichen Ergebnisse liefert. Schulnoten genügen diesem Anspruch nicht; sie sind zeitlich instabil.

Weil wir alle mal zur Schule gegangen sind, wissen wir, daß eine Zwei in Religion leichter zu erreichen ist als in Mathematik. Das ist eine Erfahrung, die durch viele deutsche Untersuchungen statistisch gesichert ist. In den musischen Fächern und in Religion wird am mildesten, in den Hauptfächern am schärfsten zensiert. Daraus ist zu folgern: Schulnoten in verschiedenen Fächern sind nicht vergleichbar. Deshalb ist es auch aus meßtheoretischer Sicht barer Unsinn, aus den Zensuren in den verschiedenen Fächern einen einfachen Mittelwert als Gesamtnote zu errechnen. Das folgende Beispiel zeigt es: Die Durchschnitts – note zwei müßte, wenn sie aus drei Einsen in Biologie, Gemeinschaftskunde und Musik und aus drei Dreien in Mathematik, Deutsch und Englisch zustande kommt, wesentlich weniger wert sein, da sie weitaus leichter zu erlangen ist als die gleiche Zwei, die sich aus Einsen in Mathematik, Deutsch und Englisch und aus Dreien in Biologie, Gemeinschaftskunde und Musik ergibt.

Zwei deutsche Studien, für die jeweils die Schulzeugnisse von mehreren tausend Gymnasiasten analysiert würden, weisen nach, daß in den verschiedenen Zweigen der Gymnasien – altsprachlich, neusprachlich, mathematisch-naturwissenschaftlich – Zensuren nach stark divergierenden Maßstäben gegeben werden. Besonders beweiskräftig ist eine der Untersuchungen, weil sie auch die Intelligenz der Schüler mit berücksichtigt. Diese Arbeit zeigt, daß Leistungen in denselben Schulfächern in verschiedenen Gymnasialzweigen auch dann unterschiedlich bewertet werden, wenn die Schüler der einzelnen Schulzweige in ihrer Intelligenz nicht voneinander abweichen. Daraus folgt: Schulnoten in verschiedenen Schulzweigen sind nicht vergleichbar.

Die Not mit den Noten

Es wäre kühn zu behaupten und wohl kaum zu beweisen, daß Berliner Abiturienten dümmer sind als bayerische. Dennoch lag ihr Notendurchschnitt von 1972 bis 1974 um 0,5 Einheiten unter dem Durchschnittswert der bayerischen Abiturienten. Die so heftig umstrittene Bönüs-Malus-Regelung, die diese Unterschiede auszugleichen sucht, hat eine Tatsache drastisch insöffentliche Bewußtsein gerückt, die auf Grund von Ergebnissen aus vier wissenschaftlichen Untersuchungen Fachleuten bereits vorher bekannt war: Schulnoten sind von Bundesland zu Bundesland nicht vergleichbar.

Doch auch zwischen einzelnen Gymnasien bestehen beträchtliche Unterschiede, wenn zensiert wird. Ich habe die Notendurchschnitte der besten zehn Prozent Oberprimaner aus nahezu allen Gymnasien in fünf Bundesländern über mehrere Jahre hin beobachtet. Das Ergebnis: Einige Schulen hatten durchweg ein höheres, also besseres Notenniveau als andere, und ihre Abiturienten kamen auf eine mittlere Gesamtnote von 1,5; die Abiturienten der Schulen mit dem generell niedrigeren Notenniveau dagegen erreichten nur einen Mittelwert von 2,7. Derartige Befunde werden gerne mit dem Argument abgetan, solche Differenzen spiegelten eben die Unterschiede im tatsächlichen Leistungsstand der Schüler dieser Gymnasien. Weit gefehlt! Eine jüngere Studie aus Marburg nimmt diesem Einwand den Wind aus den Segeln: Nicht das Leistungsniveau der Schüler, so weist sie nach, sondern das Benotungsniveau der einzelnen Schulen ist für die Diskrepanzen verantwortlich. Der Schluß ist zwingend: Schulnoten sind von Schule zu Schule nicht vergleichbar.

Was passiert, wenn verschiedene Lehrer dieselbe Leistung eines Schülers zensieren? Zu dieser Frage liegen rund zwei Dutzend experimentelle Untersuchungen vor. In einer österreichischen und auch in einer deutschen Studie haben mehrere Lehrer denselben Schüleraufsatz bewertet. In beiden Fällen streuten die Zensuren über die gesamte Notenskala – dasselbe Stück Sprache wurde also mit sehr gut bis ungenügend benotet, gerade als wäre das Zensieren eine Lotterie. Sogar Mathematikarbeiten, die doch eindeutig als richtig oder falsch zu qualifizieren sind, wurden ähnlich unterschiedlich von verschiedenen Lehrern zensiert. Die Ergebnisse beweisen: Schulnoten sind von Lehrer zu Lehrer nicht vergleichbar; es hängt weitgehend vom Zufall der Klassenzugehörigkeit ab, ob eine bestimmte Leistung schlecht oder gut benotet wird.

Die exakten Zahlen für Zensuren – eins, drei oder sechs – erwecken den Eindruck, als ginge es bei den Noten absolut präzise zu. Das ist gar nicht der Fall. Der gleiche Zahlenabstand zwischen benachbarten Noten entspricht nämlich keineswegs gleichen Unterschieden in der schulischen Leistung. Man kann also nicht sagen, der Schüler A mit der Note eins sei um genau so viel besser als der Schüler B mit einer zwei, wie dieser besser ist als der Schüler C, der eine drei hat. Aus der Notenskala läßt sich ganz allgemein nur ablesen, daß gut besser ist als befriedigend und sehr gut besser als gut – nicht aber um wieviel genau die eine Note besser ist als die andere. Diese Überlegung erscheint vielleicht zu abstrakt; sie hat aber eine ganz handfeste Konsequenz: Durchschnittswerte dürfen nur aus Daten gebildet werden, die stets genau denselben Bedeutungsabstand haben; bei Schulnoten sind die Bedeutungsabstände aber nicht bekannt. Meßtheoretisch ist also auch und allein schon aus diesem Grund die Bildung von Mittelwerten aus mehreren Einzelnoten unzulässig, das heißt: Die Noten auf der Zensurenskala täuschen eine Präzision vor, die die einzelnen Bewertungsstufen gar nicht haben.

Das Ergebnis all dieser Befunde – und damit die Antwort auf meine erste Frage – ist demnach eindeutig: Ein Bewertungsinstrument, das zu verschiedenen Zeitpunkten, von Fach zu Fach, von Schulzweig zu Schulzweig, von Bundesland zu Bundesland, von Schule zu Schule und von Lehrer zu Lehrer nach unterschiedlichen Maßstäben gehandhabt wird und das allenfalls eine Rangordnung, nicht aber eine genaue Qualifizierung von Leistung erlaubt, mißt einfach nicht genau. Schulnoten besitzen also keineswegs die Aussagekraft, die von ihnen bei der Zulassung zum Studium verlangt wird.

Damit beantwortet sich die zweite Frage nach der Beziehung zwischen Schulnoten und Studienerfolg scheinbar von selbst: Auf ein so ungenaues Instrument kann sich keinerlei verläßliche Vorhersage gründen, möchte man meinen; doch diese Antwort wäre zu undifferenziert. Es gibt nämlich mittlerweile etwa dreißig deutsche und fast tausend amerikanische Einzelstudien, die sich mit der Beziehung zwischen Schulleistung und Studienerfolg befassen. Sie alle kommen zu demselben Resultat: die Vorhersagetauglichkeit aller anderen bekannten Prognoseverfahren ist geringer als die des Schul-Abschlußzeugnisses. Schulnoten sagen mithin den Studienerfolg besser voraus als alle anderen Prognosefaktoren. Obgleich andere Prüfverfahren wie etwa Tests wesentlich objektiver sind, weist keines von ihnen einen höheren Zusammenhang mit der Examensleistung auf als dieses. Das ist eine erstaunliche Tatsache, die man sich nur mit drei Überlegungen erklären kann:

Erstens: Schulnoten gründen auf einem sehr langen Beobachtungszeitraum. Anders als in allen übrigen Meßprozessen schlagen sich in ihnen Merkmale des Schülerverhaltens nieder, die nur über viele Jahre hin beobachtbar sind – beständige Lern- und Leistungsbereitschaft, die Fähigkeit am Ball zu bleiben, Durchhaltevermögen oder Langzeit-Motivation, wie es im Psychologen-Rotwelsch heißt.

Die Not mit den Noten

Zweitens: In Schulnoten spiegelt sich ein breites Spektrum von Verhaltensmerkmalen. Die vielen einzelnen Zensuren repräsentieren im Abschlußzeugnis die Breite des Engagements und der Interessen eines Schülers und zugleich seine unterschiedlichen Qualitäten wie Intelligenz, Aufmerksamkeit, Fleiß, Sozialverhalten.

Drittens: Schulnoten messen teilweise dasselbe wie Examensnoten – das Verhalten in einer Prüfung. Wie sich ein Schüler in einer solchen Streß-Situation bewährt, entscheidet mit über die Gesamtnote im (Reife-)Zeugnis und ebenso über die Prüfungsergebnisse im Studium. Die Schulnote prognostiziert also neben der Eignung fürs Studium auch das Geschick, in einer Prüfung eher zu brillieren oder die Neigung zu versagen.

Nach allem ist es eine Tatsache: Bis heute haben wir kein besseres Prognoseverfahren für den Studienerfolg als die Noten im Abiturzeugnis. Dies zwingt uns dazu, sie auch in Zukunft als ein Kriterium bei der Entscheidung über die Zulassung zu verwenden. Das heißt allerdings nicht, daß der Zusammenhang zwischen den Leistungen in der Schule und in der Hochschule ausreicht für eine sichere Prognose. Absolut betrachtet ist der Prognosewert der Abiturnote viel zu niedrig und rechtfertigt das Reifezeugnis als einzigen Maßstab für Ausleseentscheidungen keinesfalls. Die Schulnoten lassen zwar in der Tat Schlüsse auf die Studieneignung zu; die Beziehung zwischen Schul- und Studienleistung ist aber trotzdem nicht eng genug für eine exakte Vorhersage. Deshalb dürfen die Zensuren nicht das ausschließliche Kriterium für die Auslese bleiben. Neben der schulischen Leistung müssen Faktoren berücksichtigt werden, die durch Schulnoten nicht oder nur unzureichend repräsentiert werden: genau umschriebene intellektuelle Fähigkeiten, die zur Bewältigung einzelner Studiengänge oder eines Studiums allgemein wichtig sind. Diese Fähigkeiten lassen sich mit speziell dafür entwickelten Tests messen.

Der wesentlichste Vorteil zusätzlicher Tests zum Abitur besteht darin, daß der Schulalltag von dem immer härter werdenden Druck befreit würde: von dem Ringen und Feilschen um Zehntelnoten; vom Kampf jedes Schülers gegen jeden; von der Pervertierung der Fächerwahl nach Neigung und Befähigung zur Fächerwahl nach Kalkül; von der Gewissensnot der Lehrer bei ihrem ohnehin so fragwürdigen Geschäft, Noten erteilen zu müssen.

In der nächsten Woche:

Hayo Matthiesen über Arbeiten an verschiedenen Tests für den Hochschillzugang, die jetzt in der Bundesrepublik entwickelt werden.