Künstliche IntelligenzEine Software verteilt Prüfungsnoten

Eine US-Firma hat ein Programm entwickelt, das Aufsätze von Studenten und Schülern benoten soll. Ob die Software menschliche Prüfer ersetzen kann, ist umstritten. von Christian Endt

Das Bewerten von Hausarbeiten und Klausuren ist eines der größten Ärgernisse im Bildungswesen. Für Schüler und Studenten, da sie oft wochen- oder monatelang auf Ergebnisse warten müssen. Und für Lehrer, Dozenten und Professoren, da sie viel Zeit investieren, die Ihnen fehlt, um zu unterrichten und zu forschen.

Ein neues Computerprogramm könnte Abhilfe schaffen. Wie die New York Times berichtet, hat das Unternehmen edX eine Software entwickelt, die schriftliche Arbeiten automatisch benotet. EdX ist ein Gemeinschaftsprojekt der Harvard University und des Massachusetts Institute of Technology (MIT).

Anzeige

Zunächst müssen Prüfer der Software vermitteln, wie sie selbst Texte benoten. Dazu füttert man das System mit mindestens 100 Arbeiten und den Noten, mit denen sie bewertet worden sind. So lernt die Software, wie sie künftige Texte bearbeiten soll. "Lernfähige künstliche Intelligenz" nennen Informatiker diese Technik.

Für Prüfungen mit weniger als 100 Teilnehmern taugt das System nicht. Zehn oder 20 Klausuren reichen nicht aus, um den Bewertungsstil des Prüfers zu lernen. Für große, landesweite Vergleichstests oder Aufnahmeprüfungen von Universitäten könnte sich das Programm aber durchaus als nützlich erweisen.

Ursprünglich hatte edX seine Software für die derzeit gefragten Onlinekurse namens Massive Open Online Courses (MOOCs) entwickelt. Neben Coursera und Udacity gehört edX zu den größten Anbietern dieser Kurse. An den kostenlosen Abschlussprüfungen nehmen viele Tausend Menschen teil. Sie von Hand zu benoten, ist ein enormer Aufwand, weshalb die Unternehmen bislang nur Multiple-Choice-Tests anbieten. Die neue Bewertungssoftware könnte dagegen auch Prüfungen in Form von Hausarbeiten und Essays ermöglichen.

Es gibt bereits mehrere Anbieter von Textbewertungs-Programmen. Einige amerikanische Schulen setzen derartige Verfahren schon ein. Mit den MOOCs steigt der Bedarf. Die Verantwortlichen von edX wollen ihre Software aber auch Schulen und Universitäten anbieten. Die Qualität der Beurteilungen sei mit der von menschlichen Korrektoren vergleichbar.

Ein Ersatz für Prüfer ist die Software noch nicht

Das bestätigt eine Studie der Universität Akron in Ohio. Dort ließ ein Forscherteam im vergangenen Jahr rund 22.000 Arbeiten von verschiedenen Programmen bewerten. Anschließend verglichen die Wissenschaftler die automatische Beurteilung mit der Benotung durch echte Prüfer. In der Tat stellten sie fest, dass die Bewertungen kaum voneinander abwichen. Allerdings verwendet die Studie relativ kurze Textstücke aus dem Schulbereich. Außerdem ist sie methodisch umstritten, weil die Daten keinen statistischen Tests unterzogen worden waren.

Für MOOCs mag die Bewertung von Texten mittels künstlicher Intelligenz eine Bereicherung sein. Dass die Software menschliche Prüfer in allen Bereichen ersetzen kann, ist dagegen kaum vorstellbar. Ein Computer, der alle sprachlichen und inhaltlichen Nuancen eines komplexen Textes erkennt, bleibt Science-Fiction. Zumindest in Deutschland würde es wohl auch am Verwaltungsgericht scheitern, wenn Menschen aufgrund der Entscheidung eines Algorithmus etwa der Studienplatz verweigert wird.

Zur Startseite
 
Leserkommentare
  1. Wir haben früher schnell rausgefunden, was der Lehrer lesen wollte. Ich denke, die heutigen Schüler werden auch schnell rausfinden, was der Computer von ihnen lese will.

    Eine Leserempfehlung
    • dth
    • 10. April 2013 13:33 Uhr
    2. Essays

    Wenn man eine sehr große Anzahl von Aufsätzen zum identischen Thema zu bewerten hat und es dabei aber eher auf eine "schematische" Bewertung ankommt, mag das funktionieren.
    Verfahren zur Textklassifikation sind heute schon sehr gut, wenn man da einige wenige Noten unterscheidet (Gut, Mittel, Schlecht, Durchgefallen o.ä.) und hinreichend viele Beispiele pro Klasse hat, kann das schon ganz ordentlich funktionieren.
    Der kreative Außenseiter wird vielleicht eher zufällig bewertet, aber für die große Menge der Arbeiten wird das halbwegs hinkommen. So gut, wie es eben bei Suchmaschinen oder Spamfiltern auch klappt.
    Was man damit sicher nicht bewerten kann, sind Arbeiten zu individuellen Themen (Abschlussarbeiten) oder Arbeiten, die nicht weitgehend aus Fließtext bestehen oder bei dem eine Argumentation inhaltlich geprüft werden muss. (Extremfall sicher Mathemathikklausuren, aber auch anspruchsvolle, wissenschaftliche Texte, bei denen es nicht nur darum geht, alle relevanten Punkte sprachlich sauber abzudecken).

    Mir scheint, dass die Software vor allem auf Essays im Rahmen von Aufnahmeprüfungen u.ä. abzielt.

    Eine Leserempfehlung
  2. "Ein Computer, der alle sprachlichen und inhaltlichen Nuancen eines komplexen Textes erkennt, bleibt Science-Fiction."

    Klar, ALLE Nuancen etc. wird er nicht erkennen, aber das können auch nur 0.0001% aller Lehrer. Im Bericht wurde doch geschrieben, dass die Korrekturen nicht unterscheidbar waren?!

    "Zumindest in Deutschland würde es wohl auch am Verwaltungsgericht scheitern, wenn Menschen aufgrund der Entscheidung eines Algorithmus etwa der Studienplatz verweigert wird."

    Hae? In Deutschland entscheidet ein Zuteilungsalgorithmus, wer Studienplätze nicht bekommt. Er wird halt momentan von Menschen ausgeführt und nicht von Maschinen. Der Autor weiss schon, was ein Algorithmus ist? Das hat mit Computer erstmal nix zu tun.

    3 Leserempfehlungen
    • Gibbon
    • 10. April 2013 15:32 Uhr

    Ich schlage vor, dass auch die Prüflinge in Zukunft von Computern ersetzt werden /Ironie aus
    Es ist schön, wenn uns Computer Arbeiten abnehmen, die sehr anstrengend sind (Waschmaschine), aber letztendlich wollen wir doch dieses Leben leben. Jemandem Bildung zu vermitteln, zu überprüfen, ob meine Wissensvermittlung angekommen ist und vielleicht auch Amüsement zu empfinden ob mancher eher kurioser Anworten, ist doch ein wesentlicher Bestandteil des Lehrerdaseins. Wenn es zuviele Prüflinge für einen Prüfer sind, bleibt immernoch die Möglichkeit mehr Prüfer einzusetzen. Langsam habe ich den Eindruck, dass wir unser ganzes Leben in die Hände von Automaten geben, um Zeit zu gewinnen, die aber nie bei uns ankommt. Unsere Großeltern, ja sogar unsere Eltern haben weniger gearbeitet als wir, obwohl sie weniger technische Unterstützung hatten. Irgendetwas läuft da doch falsch...

    2 Leserempfehlungen
    Reaktionen auf diesen Kommentar anzeigen

    Wenn man keine "Automaten" hätte, dann würde jeder Arbeitsschritt deutlich mehr Zeit in Anspruch nehmen. Dies hätte zur Folge, dass man in der gleichen Zeit, weniger geleistet bekommt. Demnach spart man sich die Zeit, die man bräuchte, verzichtete man auf die Hilfe der Technik.
    Die reine Arbeitszeit ist im Vergleich zu unseren (Groß-) Eltern gesunken, die Effizienz (und damit die Menge an geleisteter Arbeit) hingegen gestiegen.

    "Wenn es zuviele Prüflinge für einen Prüfer sind, bleibt immernoch die Möglichkeit mehr Prüfer einzusetzen"

    Wieso sollte man mehr Prüfer einsetzen müssen, wenn die Korrekturen auf anderem Wege zu bewältigen sind?
    Damit würde man doch unnötig Zeit vergeuden, die diese Leute in Forschung oder Lehre investieren könnten.
    Sollten die per Computer gelieferten Korrekturen falsch sein, so würde das spätestens bei der Einsicht auffallen und dort könnten immer noch Menschen die Prüfung korrigieren.

  3. Viele Korrekturen sind nicht unparteiisch oder zumindest chancengleich zustande gekommen, das ist Fakt. Das fängt im Studiengang Rechtswissenschaft schon da an, dass man in Hamburg sein Prädikatsexamen auf dem Tablett serviert bekommt und in BaWü oder Bayern heftig daran knabbern muss.

    Dann wird man von unterschiedlichen Prüfern mit unterschiedlichen Auffassungen bewertet. Bei dem einen ist ein Widerspruch im Gutachten ein Genickbruch, bei einem anderen ist es nicht so wild, solange der Rest passt.

    Dann gibt es immer wieder Stellen, an denen man verschiedene Meinungen vertreten kann. Der Korrektor wird zumindest unterbewusst immer seine eigene Auffassung im Zweifel ein wenig besser benoten.

    Und schlussendlich sind Korrektoren auch nur Menschen. Der eine hat schon einen schlechten Tag und ist über die Schrift des Studierenden so genervt, dass er kräftig austeilt. Der andere hat einen guten Tag und sieht über Leichtsinnsfehler einfach hinweg.

    Automatisierte Systeme könnten sicherlich für mehr Gerechtigkeit sorgen.

    Eine Leserempfehlung
    Reaktionen auf diesen Kommentar anzeigen
    • Gibbon
    • 10. April 2013 16:50 Uhr

    Benotung vornimmt, sondern vorher durch den Prüfer trainiert werden muss, so dass also die persönlichen Vorlieben oder Abneigungen des Prüfers weiterhin in die Note einfließen. Im übrigen ist fraglich, ob sich Subjektivität aus der Wertung völlig verbannen lässt. Gerade im juristischen Bereich zeigt sich, dass ein große Bandbreite zwischen dem juristischen Text und seiner Interpretation besteht (deshalb gibt es ja überhaupt Juristen).
    Selbst Multiple Choice Tests sind nicht so eindeutig wie ihre Verbreitung vermuten ließe. Sprache lässt eben immer einen gewissen Spielraum und wo nichts erklärt werden kann, kann auch kein Missverständnis ausgeräumt werden.

    • Gibbon
    • 10. April 2013 16:50 Uhr

    Benotung vornimmt, sondern vorher durch den Prüfer trainiert werden muss, so dass also die persönlichen Vorlieben oder Abneigungen des Prüfers weiterhin in die Note einfließen. Im übrigen ist fraglich, ob sich Subjektivität aus der Wertung völlig verbannen lässt. Gerade im juristischen Bereich zeigt sich, dass ein große Bandbreite zwischen dem juristischen Text und seiner Interpretation besteht (deshalb gibt es ja überhaupt Juristen).
    Selbst Multiple Choice Tests sind nicht so eindeutig wie ihre Verbreitung vermuten ließe. Sprache lässt eben immer einen gewissen Spielraum und wo nichts erklärt werden kann, kann auch kein Missverständnis ausgeräumt werden.

    • deedl
    • 10. April 2013 17:13 Uhr

    Aus eigener Erfahrung weiß ich, dass in den USA für das Schreiben von Aufsätzen z.B. für die Textanalyse teilweise extreme Schema-F Ansätze gelehrt werden.

    So sind z.B. das Absatzschema des Aufsatzes und sogar Anzahl und Inhalt der Sätze vorgegeben. Der Schüler muss dann stumpf das Textschema lernen und ähnlich wie in einem Lückentext hier und da ein paar Adjektive Aufgabenspezifisch anpassen.

    Textaufgaben auf einem derart unterirdischen Niveau treiben natürlich den Prüfer in den Wahnsinn und sind einfach zu automatisieren. Sobald Aufbau und Struktur des Textes vom Schüler selbst zu wählen sind, sehe ich nicht, wie eine Software inhaltlich irgendeine Bewertung vornehmen könnte, dazu sind Computer immer noch zu dumm.

    Dieser Artikel ist also nicht Ausdruck tehcnischen Fortschrittes, sondern Ausdruck des teilweise extrem niedrigen schulischen Niveaus in den USA.

    Eine Leserempfehlung
  4. Prüfungsnoten sollten grundsätzlich abgeschafft werden.
    Wenn Schüler Fehler machen, sollte man das den Lehrern ankreiden und nicht den Schülern.
    Schüler machen nur solange Fehler wie sie etwas nicht verstanden haben.
    Diesen Mangel zu beheben ist Aufgabe des Lehrers.
    Setzen, 6.

    Reaktionen auf diesen Kommentar anzeigen

    ...haben sie recht, nicht jeder Lehrer heutzutage ist ausreichend pädagogisch Qualifizert.

    allerdings gehören da wie immer zwei dazu: ein Lehrer der seine Schüler motiviert und den Stoff vermittelt, und ein Schüler der mitarbeitet. Wenn einer von beiden nicht mit macht ist der Unterricht zum scheitern verurteilt.

    Mit schulnoten kann man die Mitarbeit der Schüler erzwingen, und sich gleichzeitig einen Überblick über den Leistungsstand erschaffen (zumindest bei standardisierten Tests wie dem Abitur).

    Lehrer können das was sie fordern nicht leisten.....und wenn bräuchten sie dafür eine ganz andere und viel längere Ausbildung, und man müsste vorher über Persönlichkeitsprofile die Leute aussondern die die pädagogischen Anforderungen dieses Berufes unterschätzen.

    Es gibt keine praktische Alternative zum Leistungsorientierten Schulsystem (wenn doch nennen sie mir bitte eine)

Bitte melden Sie sich an, um zu kommentieren

  • Quelle ZEIT ONLINE
  • Schlagworte Software | Studie | Künstliche Intelligenz | Schule | Test
Service