Wie nah sind wir an der Superintelligenz? – Seite 1
Künstliche Intelligenz könnte uns Menschen ganz schön gefährlich werden. Darüber herrscht erstaunliche Einigkeit. Der Hype um KI und Chatbots wurde in den vergangenen Wochen auch zu einem Hype der Warnungen.
Wer genauer hinschaut, erkennt allerdings, dass ein erbitterter Streit darum ausgefochten wird, welche Gefahren es sind, die von den Systemen des maschinellen Lernens ausgehen. Manche Expertinnen warnen vor den Risiken im Hier und Jetzt. Chatbots könnten missbraucht werden, um zum Beispiel massenhaft Falschmeldungen zu verbreiten. Oder sie könnten rassistische und sexistische Verzerrungen in ihren Trainingsdaten reproduzieren. Andere schauen weiter in die Zukunft. Sie warnen davor, was passieren könnte, wenn KI in der aktuellen Geschwindigkeit weiterentwickelt wird. Dann könnte sie aus deren Sicht genauso intelligent werden wie Menschen oder sogar noch intelligenter. Artificial general intelligence (AGI), nennen Forscher das, manche sprechen auch von starker KI oder von Superintelligenz.
Eine solche Intelligenz könnte uns Menschen "irgendwann überflügeln, überflüssig machen und ersetzen." Das schrieb jedenfalls eine Gruppe KI-Wissenschaftler und Techpromis vergangene Woche in einem offenen Brief. Sie forderten deshalb, entsprechende Systeme erst mal nicht weiterzuentwickeln, sondern stattdessen eine sechsmonatige Pause einzulegen. In dieser Pause sollten Sicherheitsmaßnahmen entwickelt werden, um sicherzustellen, dass eine eventuelle Superintelligenz der Menschheit bei der Lösung ihrer Probleme hilft – statt außer Kontrolle zu geraten und uns zu schaden.
Ob man das sinnvoll findet oder alarmistisch, hängt im Wesentlichen davon ab, ob man davon ausgeht, dass eine starke künstliche Intelligenz wirklich kurz bevorsteht.
Forscher von Microsoft Research wollen dafür nun Anzeichen gefunden haben. In einer Veröffentlichung berichten sie (PDF), dass sie in einer breit angelegten Untersuchung des Sprachmodells GPT-4 "Funken von Genereller Künstlicher Intelligenz" gefunden hätten. Das System zeige "bemerkenswerte Fähigkeiten" in einer Vielzahl von Bereichen, unter anderem Abstraktion, Programmieren, Mathematik, Medizin, Recht, dem Verständnis menschlicher Motive und Emotionen und vielem mehr. In vielem davon übertreffe es Menschen schon heute.
Das steht in direktem Widerspruch zu dem, was andere Forscherinnen seit Langem und immer wieder betonen. Es sei aus ihrer Sicht ausgeschlossen, dass generelle Intelligenz auf der Basis von rein statistischen Modellen entstehe. Prominente Vertreterinnen dieser Ansicht sind die ehemalige Google-Mitarbeiterin Timnit Gebru und die Linguistin Emily Bender. Die Sorge vor eine Superintelligenz sei "Blödsinn", sagte Bender kürzlich im Interview mit ZEIT ONLINE.
Sprachmodelle wie GPT-4 lernen aus einer riesigen Menge Trainingsdaten (im Prinzip verarbeiten sie beinahe das ganze Internet) und sagen auf Basis statistischer Wahrscheinlichkeit vorher, welches Wort oder welche Phrase auf vorhergehende Wörter folgt. In der Tat ist es nicht intuitiv, wie auf dieser Basis ein echtes Verständnis der Welt oder gar Intelligenz entstehen soll. Wie das geschehen sei, könnten sie auch nicht beantworten, so die Microsoft-Forscher, "diese Fragen sind Teil des Geheimnisses und der Faszination von großen Sprachmodellen." Aber sie betonen, diese "Funken" von Intelligenz in ihren vielen Versuchen beobachtet zu haben.
Der Output der Maschine sei in weiten Teilen nicht mehr von menschlichem Output zu unterscheiden. Da diese Fähigkeiten ein breites Spektrum von Domänen abdecke, und viele davon menschliches Niveau erreichten oder gar überschritten, "sagen wir mit gutem Gewissen, dass GPT-4 ein bedeutender Schritt in Richtung AGI ist", schreiben die Forschenden. Aus ihrer Perspektive gab es zwischen dem Vorgänger GPT-3.5, der Basis für die erste Generation von ChatGPT, und GPT-4 einen bedeutenden Sprung in Richtung genereller KI.
GPT-4 kann ein Einhorn zeichnen
Die Versuche mit GPT-4 mussten sich auf das stützen, was von außen zugänglich ist: Die Microsoft-Forscher hatten keinen Einblick in Trainingsdaten oder die Architektur des Modells, sie testeten das System lediglich von außen, das heißt in Form von Spracheingaben, sogenannten prompts.
Die frühe Form von GPT-4 war zudem noch nicht multimodal – Bildeingaben waren also nicht möglich. Dennoch war das System in der Lage, Bilder zu erstellen: Die Forschenden baten es beispielsweise, ein Einhorn zu zeichnen, indem es eine Programmiersprache verwendete, mit der Grafiken erstellt werden. Später veränderten sie den Code so, dass beim Output das Horn des Einhorns verschoben war – und baten GPT-4, einen Code zu schreiben, der das Horn wieder an den richtigen Ort schiebt. Auch das funktionierte. "Das zeigt, dass GPT-4 sehen kann", schreiben die Forschenden, "obwohl es ein reines Sprachmodell ist." Es hatte also offenbar allein auf der Basis von Sprache ein visuelles Modell eines Einhorns gelernt – und auch allein anhand des Codes "gesehen", dass das Horn verrutscht war.
Interessant ist auch, wie sich der Output über die Zeit veränderte: Innerhalb eines Monats wurde GPT-4 dreimal gebeten, das Einhorn zu zeichnen. Und weil das in der Entwicklungsphase des Modells war, lernte es offenbar stetig dazu: Jedenfalls zeigen die Bilder eine klare Entwicklung, das Ergebnis wird immer ausgefeilter (so ausgefeilt es eben möglich ist, ein Einhorn auf Basis geometrischer Formen wie Kreisen, Ellipsen und Dreiecken zu zeichnen). GPT-3.5 hingegen zeichnete ein Einhorn, das nicht als solches zu erkennen ist.
In einem anderen Versuch sollte GPT-4 ein Gedicht schreiben, in dem der mathematische Beweis vorkommt, dass es unendlich viele Primzahlen gibt. "Das ist eine anspruchsvolle Aufgabe, die eine Kombination aus elementarer mathematischer Schlussfolgerung, poetischem Ausdruck und der Erzeugung natürlicher Sprache erfordert", schreiben die Forschenden. Das Sprachmodell erzeugte ein unterhaltsames Gedicht, das alle Anforderungen erfüllte.
Um auszuschließen, dass das Sprachmodell doch nur Dinge kopiert, die es irgendwo in seinen Trainingsdaten gesehen hat, veränderten sie die Aufgabe für den nächsten Versuch: Sie baten das Sprachmodell, den Primzahlbeweis im Stil eines Shakespeare-Stücks zu schreiben, in dem sich zwei Beteiligte über den Beweis streiten. "Man kann sehen, dass GPT-4 sich leicht an verschiedene Stile anpasst und beeindruckende Ergebnisse liefert, was darauf hindeutet, dass es ein flexibles und allgemeines Verständnis der beteiligten Konzepte hat", schreiben die Forschenden.
Auf 100 Seiten demonstrieren sie, wie GPT-4 zeichnet, Musik komponiert, ein 3-D-Computerspiel entwickelt und Programmcode für Deep Learning erstellt. Lediglich bei der Planung hat GPT-4 noch Probleme: So scheitert es an einer komplexen Aufgabe, in der es ein Gedicht schreiben soll, dessen letzter Satz der gleiche ist wie der erste, nur dass die Wörter in umgekehrter Reihenfolge vorkommen sollen – aber so, dass dieser grammatikalisch korrekt ist. Das zeigt, dass das Modell nicht geplant hat, sondern eher losgedichtet hat – der letzte Satz ergibt grammatikalisch keinen Sinn.
In einer weiteren Reihe von Aufgaben zeigte ChatGPT, dass es auch als Klempner arbeiten könnte, wenn es Zugriff auf Werkzeuge hätte. Mangels entsprechender Schnittstellen in die analoge Welt stellte sich einer der Forscher zur Verfügung. Er tat, was das Sprachmodell ihm sagte. Dann berichtete er, welche Auswirkungen seine Handlungen hatten und fragte nach dem nächsten Schritt. Auf diese Weise reparierte das Team aus Mensch und Maschine die Ursache eines Wasserschadens in der Wohnung des Forschers. Das Sprachmodell hatte also allein aus Sprachdaten das Konzept eines Wasserschadens, undichter Rohre und die entsprechenden Zusammenhänge gelernt und auch, welche Schritte nötig sind, um die Ursache zu finden und zu beheben.
So beeindruckend dieser Output ist: Ob das alles nun tatsächlich "Funken von Intelligenz" sind, bleibt eine Frage der Sichtweise.
Was ist Intelligenz?
Denn es gibt sehr unterschiedlichen Definitionen von Intelligenz. Die Microsoft-Forschenden berufen sich auf eine Definition von Intelligenz, die 1994 von einer Gruppe von Fachleuten aus dem Bereich von Intelligenztests veröffentlicht wurde (PDF). Darin wird unter Intelligenz vor allem eine Reihe von Fähigkeiten und deren Kombination verstanden. Dazu gehört es, Probleme zu lösen, abstrakt zu denken, komplexe Ideen zu erfassen, aus Erfahrungen zu lernen, zu planen.
Das alles habe GPT-4 teils auf menschlichem Niveau demonstriert, schreiben die Forschenden. Eine "innere Motivation" aber habe sich nicht gezeigt. Diese allerdings ist auch nicht Teil der Intelligenzdefinition von 1994 (möglicherweise, weil diese Definition Menschen im Fokus hat und bei Menschen naturgemäß von einer inneren Motivation ausgegangen wird). Genau diese innere Motivation ist allerdings in vielen Definitionen starker KI ein Schlüsselkonzept.
Womöglich ist das schon ein Teil der Erklärung des vehementen Streits zwischen jenen, die starke KI kommen sehen, und jenen, die diese Idee für absurd halten: Sie reden zumindest teilweise von zwei verschiedenen Dingen. Der aktuelle Microsoft-Artikel zeigt außerdem, dass nicht nur eine allgemein anerkannte Definition von Intelligenz fehlt, sondern auch Methoden, um Intelligenz in künstlichen Systemen zu messen.
Es gibt zwar diverse anerkannte Testverfahren, um die Fähigkeiten von maschinellen Lernsystemen zu messen. Doch diese betreffen meist spezielle Aufgaben, nicht allgemeine Intelligenz.
Deshalb habe man einen eigenen Testansatz entwickelt, der "eher der traditionellen Psychologie als dem maschinellen Lernen" entspreche, schreiben die Microsoft-Forschenden. Das Ziel sei gewesen, "neuartige und schwierige Aufgaben und Fragen zu generieren, die überzeugend zeigen, dass GPT-4 weit über das Auswendiglernen hinausgeht und ein tiefes und flexibles Verständnis von Konzepten, Fähigkeiten und Bereichen hat". Man sei sich bewusst, dass dieser Ansatz subjektiv sei und "möglicherweise nicht den strengen Standards einer wissenschaftlichen Bewertung" entspreche. Es sei aber auch der erste Schritt, um neue Testmöglichkeiten für KI-Systemen mit allgemeinerer Intelligenz zu entwickeln.
Das Team schreibt an vielen Stellen, dass es sich der Einschränkungen von Sprachmodellen bewusst sei und dass diese auch immer wieder aufgetaucht seien in den Versuchen – Verzerrungen beispielsweise ebenso wie Halluzinieren, also der Fakt, dass sich große Sprachmodelle Zusammenhänge "ausdenken", die nicht der Wahrheit entsprechen. "Unsere Behauptung, dass GPT-4 einen Fortschritt in Richtung AGI darstellt, bedeutet nicht, dass es perfekt in dem ist, was es tut, oder dass es annähernd in der Lage ist, alles zu tun, was ein Mensch tun kann", schreibt das Team.
Verständnis oder Statistik – oder beides?
Wieso GPT-4 diese "bemerkenswerte Intelligenz" zeige, sei unklar, schreiben die Forscher am Ende ihrer Arbeit. "Warum zeigt es eine so allgemeine und flexible Intelligenz, obwohl es im Grunde nur eine Kombination aus einfachen algorithmischen Komponenten ist?"
Das ist im Grunde genau der Kritikpunkt von Emily Bender und Timnit Gebru: Das Ganze ist bloß Statistik, kein Verständnis. Allein deshalb sei eine starke KI ausgeschlossen. Aber man kann auf Basis der gleichen Annahme auch zu einem ganz anderen Schluss kommen: Das Microsoft-Team deutet an, dass es möglicherweise nötig sei, den Begriff des Verstehens zu überdenken. Man frage sich, "wie viel mehr zu einem echten Verständnis gehört". Sprich: Es ist offen, wie Verständnis im menschlichen Gehirn abläuft und ob nicht das, was GPT-4 macht, schon als Verstehen interpretiert werden kann.
Das allerdings ist eine Frage für die Hirnforschung. Die weist seit Beginn des großen Hypes um ChatGPT vor allem auf eines hin: Wir Menschen haben die Neigung, eloquentes Daherreden für intelligent zu halten – selbst wenn es inhaltlich keinen Sinn ergibt. Auch das könnte eine die Ursache dafür sein, dass wir Intelligenz in Chatbots sehen, die möglicherweise gar nicht vorhanden ist.
Künstliche Intelligenz könnte uns Menschen ganz schön gefährlich werden. Darüber herrscht erstaunliche Einigkeit. Der Hype um KI und Chatbots wurde in den vergangenen Wochen auch zu einem Hype der Warnungen.
Wer genauer hinschaut, erkennt allerdings, dass ein erbitterter Streit darum ausgefochten wird, welche Gefahren es sind, die von den Systemen des maschinellen Lernens ausgehen. Manche Expertinnen warnen vor den Risiken im Hier und Jetzt. Chatbots könnten missbraucht werden, um zum Beispiel massenhaft Falschmeldungen zu verbreiten. Oder sie könnten rassistische und sexistische Verzerrungen in ihren Trainingsdaten reproduzieren. Andere schauen weiter in die Zukunft. Sie warnen davor, was passieren könnte, wenn KI in der aktuellen Geschwindigkeit weiterentwickelt wird. Dann könnte sie aus deren Sicht genauso intelligent werden wie Menschen oder sogar noch intelligenter. Artificial general intelligence (AGI), nennen Forscher das, manche sprechen auch von starker KI oder von Superintelligenz.