Die Suche nach dem Babelfisch – Seite 1

Kurz erklärt - Was ist künstliche Intelligenz? Humanoide Roboter, eine Matrix, die Menschen als Energiespender benutzt – so stellen wir Menschen künstliche Intelligenz in Filmen dar. Doch wie sieht die Wirklichkeit aus? © Foto: Zeit Online

Eine der vielen verrückten Ideen aus Per Anhalter durch die Galaxis wird womöglich bald Wirklichkeit: der Babelfisch. In Douglas Adams' Roman lebt das Tier im Ohr seines Trägers und übersetzt simultan alle Sprachen in dessen eigene. Die reale Version wird allerdings kein Lebewesen, sondern ein Gerät im Ohr sein, die Übersetzungen ermöglicht dann eine künstliche Intelligenz (KI). Geoffrey Hinton, eine Koryphäe der KI-Forschung, arbeitet daran.

Hinton beschäftigt sich mit neuronalen Netzwerken. In den Achtziger Jahren haben er und seine Kollegen David Rumelhart und Ronald Williams einen in Vergessenheit geratenen Algorithmus wiederbelebt, der es den in Software implementierten Netzwerken erlaubt, selbständig und effizient zu lernen. Erst dadurch wurden die verblüffenden Leistungen von DeepMinds AlphaGo oder Googles "träumendem" Netzwerk Inception möglich. Mit ZEIT ONLINE hat er über Vergangenheit, Gegenwart und Zukunft der KI gesprochen, über Sackgassen und Durchbrüche – und eben den Babelfisch.

"Wir sind schon ziemlich nah dran", sagt er. "Unsere Netzwerke sind beim Übersetzen von Englisch ins Französische schon genauso gut wie die besten kommerziell erhältlichen Programme." Wie aber funktionieren die so vielversprechenden künstlichen neuronalen Netze? Und warum erst jetzt?

Die Geschichte der KI zeigt, dass es viel mehr als nur schnellerer Computer bedurfte, um dem Babelfisch den Weg zu bereiten.

Diese Geschichte beginnt im Jahr 1943. Inspiriert von neuen Erkenntnissen der Hirnforschung zeigten der Logiker Walter Pitts und der Neurophysiologe Warren McCulloch damals mit den Mitteln der Mathematik, dass Nervenzellen im Prinzip alle logischen Operationen wie UND, ODER oder NICHT sowie deren Kombinationen durchführen können, wenn sie zu Netzwerken zusammengeschaltet werden. Ihre hypothetischen Nervenzellen hatten nur zwei mögliche Outputs: an oder aus. Ob sie aktiv wurden, hing davon ab, ob die Inputs von anderen Neuronen einen bestimmten Schwellenwert überschritten. Auf dieser Schwellenlogik basieren auch heute noch – mit ein paar Variationen – alle künstlichen neuronalen Netze.

Zu McCullochs und Pitts' Zeiten aber existierten noch keine Maschinen, die solche Netzwerke hätten simulieren können. Zwar hatte Konrad Zuse den ersten digitalen Computer schon 1941 in Berlin entwickelt. Erst nach Kriegsende aber baute ein Team an der Universität Manchester einen Computer nach Alan Turings Vorgaben, den Manchester Mark 1, dessen Williamsröhren es erlaubten, beliebige Programme zügig zu speichern und auszuführen. Es war dessen Nachfolge-Rechner, der Ferranti Mark 1, der im Jahr 1951 die erste künstliche Intelligenz ausführte, die den Namen halbwegs verdiente: ein Programm, das Dame spielte, und zwar schlecht.

Marvin Minskys "Neurocomputer"

Der Begriff künstliche Intelligenz existierte damals noch nicht. Die Zuversicht aber, dass Turings Maschinen bald alle logisch-mathematischen Probleme lösen würden, verbreitete sich schnell unter Ingenieuren und Wissenschaftlern. Unter ihnen war auch Marvin Minsky, ein junger Mathematiker, der gerade in Princeton promovierte. Schon als Bachelorstudent war Minsky von McCullochs und Pitts Arbeiten fasziniert gewesen. Nun konstruierte er einen "Neurocomputer" mit dem hübschen Namen SNARC (Stochastic Neural Analog Reinforcement Computer), bestehend aus 40 Röhrentransistoren als künstliche Neurone und vielen Kabeln, die sie verbanden. SNARC konnte etwas, das bis dahin Laborratten vorbehalten war: den schnellsten Weg aus einem Labyrinth finden. Damit war SNARC das erste neuronale Netz, das ein Problem aus der realen Welt löste.

Wie hoffnungsvoll die frühen KI-Forscher mit ihrem Logik-basierten Ansatz waren, zeigt sich in einem Forschungsantrag, den Marvin Minsky, Claude Shannon, Nathaniel Rochester und John McCarthy im Jahr 1955 verfassten. Gerichtet war er an die Rockefeller Institution mit der Bitte, einen Sommerkurs am Dartmouth College in New Hampshire zu finanzieren. "Wir beabsichtigen herauszufinden", schrieben die Forscher, "wie man Maschinen dazu bringt, zu sprechen, abstrakte Konzepte zu formen, alle möglichen Probleme zu lösen, die heute dem Menschen vorbehalten sind, und sich selbst dabei zu verbessern." Sieben Probleme der künstlichen Intelligenz — hier fiel der Begriff zum ersten Mal — sollten in diesem Sommer untersucht werden, darunter Kreativität, Selbstverbesserung, Abstraktion und neuronale Netze.

Das Geld wurde bewilligt, doch die erste Dartmouth-Konferenz im Sommer 1956 war nicht viel mehr als ein Treffen zum Brainstorming. Dennoch war die Begeisterung, die sie bei den Teilnehmern und in der Folge an ihren Heimatinstitutionen auslöste, riesig. So gilt die Dartmouth-Konferenz vielen Forschern als Geburtsstunde der KI, auch wenn der Traum von intelligenten Maschinen zurück bis ins 19. Jahrhundert reicht.

Die Grundlagen der fünfziger Jahre gelten bis heute

Während dieser frühen Jahre sah die Zukunft der künstlichen neuronalen Netze vielversprechend aus. Frank Rosenblatt, damals am Cornell Aeronautical Laboratory in New York, hatte im Jahr 1958 eine Version der künstlichen Neurone von McCulloch und Pitts zu einem lernfähigen Netzwerk erweitert, dem Perzeptron. Das einfachste Perzeptron-Netzwerk hat eine Handvoll Input-Neurone, die Output-Neurone aktivieren, aber nicht umgekehrt. Diese sogenannte Feed-Forward-Architektur, bei der Informationen immer nur in eine Richtung laufen, verwenden heute praktisch alle neuronalen Netze. Das Gegenteil sind rückgekoppelte Systeme, die einen großen Nachteil haben: Sie verhalten sich hochgradig nichtlinear. Ihre Aktivität kann sich zu Mustern hochschaukeln (oder verebben), die nicht vorhersehbar sind und stark von kleinsten Abweichungen in den Anfangsbedingungen abhängen.

Und noch eine weitere Grundlage neuronaler Netze schuf Rosenblatt. Die Verbindungsstärken, oder "Gewichte", mit denen Neurone andere Neurone aktivieren, passt ein Perzeptron-Netzwerk automatisch so an, dass es bei seiner Aufgabe besser wird. Dabei wird die Aktivität der Neurone in der Output-Schicht mit einem Wunschwert verglichen und die Gewichte im Netzwerk so angepasst, dass der Wunschwert wahrscheinlicher wird. Dieses sogenannte überwachte Lernen (Supervised Learning) ist das Rückgrat aller Fähigkeiten, die neuronale Netze heute besitzen.

Symbolische KI versus neuronale KI

Obwohl das Fundament für lernende neuronale Netze also schon in den ersten Jahren der KI-Forschung gelegt war, setzte sich zur gleichen Zeit zunehmend ein anderer Ansatz durch, die symbolische KI. Deren Vertreter versuchten sich daran, menschliche Intelligenz auf die Verarbeitung abstrakter Symbole zu reduzieren. Einer der Hauptverfechter, Herbert Simon aus Stanford, sagte im Jahr 1965: "Maschinen werden innerhalb von 20 Jahren alles können, was Menschen auch können."

"Die symbolische Informationsverarbeitung war das Paradigma der klassischen künstlichen Intelligenz", sagt Geoffrey Hinton. "Ihre zentrale Ausrichtung war es, komplexe Regeln auf relativ simple Inputs anzuwenden, um so zu klugen Schlüssen zu kommen."

1969 stellte sich auch Marvin Minsky auf Simons Seite. Sein Buch Perceptrons, das er mit seinem Kollegen Seymour Papert veröffentlichte, schien mit logisch-mathematischer Exaktheit zu beweisen, dass Perzeptronen-Netzwerke selbst einfache Probleme der KI nicht würden lösen können. Das Werk hatte einen derart großen Einfluss auf die KI-Gemeinde, dass das Interesse vieler KI-Forscher an neuronalen Netzen vor allem in den USA verebbte.

Zwar wurden in der Sowjetunion, in Europa und Asien während der siebziger Jahre weiter daran geforscht. Sogenannte tiefe, also mehrschichtige lernende Netze wurden sogar schon 1965 vom Ukrainer Alexey Grigoryevich Ivakhnenko beschrieben. Doch der logisch-symbolische Geist der heute oft "klassisch" genannten KI von damals zog sich bis in die achtziger Jahre und darüber hinaus durch nahezu alle Errungenschaften der KI: Algorithmen, die Sprachen verstehen sollten, wie STUDENT, semantic net und später das berühmte Chatprogramm ELIZA waren sämtlich sehr aufwendig von Menschenhand geschrieben, mussten auf große Datenbanken verfügbarer Worte zurückgreifen und konnten nur nach festen Regel antworten. In den späten achtziger Jahren fuhren die ersten autonomen Autos von Supercomputern gesteuert in Schrittgeschwindigkeit über Übungsparcours, wie etwa der Navlab 1 im Jahr 1986, Sojus-Kapseln dockten automatisch an die entstehende ISS an und 1996 gewann Deep Blue von IBM gegen Garri Kasparow im Schach. Alles ohne künstliche neuronale Netze.

Selbst lernende KI in weiter Ferne

Jedoch fehlte den Programmen der klassischen KI eine der sieben Fähigkeiten, die sich die Dartmouth-Konferenz zum Ziel gesetzt hatte: effizientes Lernen, etwa von Objektkategorien in einem Stapel Fotos oder von Worten auf einem Tonband. Statt auf lernende Systeme setzte man mit zunehmender Rechnergeschwindigkeit und zunehmendem Speicherplatz lieber auf sogenannte Expertensysteme, die auf riesige Datenbanken zurückgriffen, die oft von Hand gefüllt waren mit Assoziationen, die das Programm mit seinem Input vergleichen konnte; etwa den Laut "/da/" und den Schriftzug "da".

Doch die Resultate beim Erkennen von gesprochener Sprache blieben weit hinter den Erwartungen zurück. Die Darpa etwa, die Forschungseinrichtung des US-Verteidigungsministeriums, finanzierte zwischen 1970 und 1975 Forschern bei IBM, in Stanford und Carnegie Mellon ein Forschungsprogramm zur Spracherkennung. Doch die Fortschritte waren so mickrig, dass die Darpa sich noch während des Programms enttäuscht zurückzog. Künstliche Intelligenzen, die von selbst aus einer Menge komplexer Inputs Konzepte lernen und verknüpfen, wie es sich die Väter der KI in Dartmouth vorgestellt hatten, schienen in weite Ferne gerückt.

Die achtziger Jahre, der KI-Winter

Der Anfang der Lernrevolution in der KI fiel still und leise in genau diese Zeit der großen Enttäuschung, oft KI-Winter genannt. Im Jahr 1970 veröffentlichte ein Finne namens Seppo Linnainmaa die grundlegende Idee für den "Rückwärtsmodus", eine Methode, die es erlaubte, die nötigen Anpassungen in einem neuronalen Netz zu berechnen, wenn das Netz einen Fehler macht. Es ist dieses heute Backpropagation genannte Verfahren, mit dem Geoffrey Hinton und seine Kollegen im Jahr 1986 ein neuronales Netz betrieben, dass simple Eigenschaften von Bildern schneller zu erkennen lernte.

Die heutigen tiefen neuronalen Netze (DNNs — Deep Neural Networks) bestehen aus Tausenden künstlichen Neuronen. Tief sind sie, weil sie in mehr als zwei Schichten hierarchisch übereinander liegen und oft über Millionen von Verbindungen Informationen nach oben weiterreichen (Feed Forward). Die meisten tiefen Netzwerke haben viele Zwischenschichten (Hidden Layers), AlphaGo etwa hat 13. Vor dem Training wird definiert, wie das Aktivitätsmuster in der Output-Schicht nach dem Training aussehen soll. Zum Beispiel: "Das dritte Neuron von links soll nur bei Katzenbildern aktiv sein." Dieses Training soll erreichen, dass die Verbindungen zwischen den tiefen Schichten so eingestellt werden, dass auch bei vorher noch nie präsentierten Katzenbildern immer das dritte Neuron von links aktiv wird. Und genau das leistet der Backpropagation-Algorithmus mit höchster Effizienz.

Hinton sagt: "Backpropagation vergleicht das Aktivitätsmuster in der Output-Schicht mit dem gewünschten Muster und ermittelt dann für alle Verbindungen im Netzwerk gleichzeitig deren neue Gewichte" – also jene Zahlenwerte, die eine Verbindungsstärke zwischen zwei Neuronen angeben. "Vor Backpropagation musste man die Gewichte alle einzeln anpassen. Bei einem Netzwerk mit 100 Millionen Verbindungen ist Backpropagation also 100 Millionen Mal effizienter."

Backpropagation – der unbemerkte Durchbruch

Hinton und seine Kollegen zeigten 1986 mit Backpropagation, dass der Lernalgorithmus die tiefen Neurone automatisch zu Detektoren für bestimmte Muster im Input trainiert. Deshalb reagieren die Neurone in der zweiten Schicht neuronaler Netze, die auf Bilder losgelassen werden, nach dem Training auf einfache gerade Kanten im Input-Bild, die in der dritten Schicht auf Formen, die sich aus diesen Kanten zusammensetzen lassen, die in der vierten Schicht auf Kombinationen dieser Formen und so weiter. Bis in der Output-Schicht schließlich ein Neuron am stärksten auf Katzen reagiert, oder auf Autos oder Cockerspaniel.

Doch nach Hintons Veröffentlichung seiner so effizienten Version des Backpropagation-Algorithmus reagierte die KI-Gemeinde erst einmal kaum. Es gab nicht genügend Trainingsdaten und die Computer vor der Jahrtausendwende waren zu langsam. Nur wenige junge Forscher, wie Yann LeCun, sahen in Hintons Arbeit eine Revolution. Heute ist LeCun der Chef von Facebooks KI-Abteilung.

Zwar machten auch andere Forschergruppen große Fortschritte mit tiefen neuronalen Netzen. So gewannen im Jahr 2011 Jürgen Schmidhuber und sein Team vom Schweizer Forschungsinstitut für Künstliche Intelligenz IDSIA mit einem tiefen neuronalen Netz mit Backpropagation unter anderem einen Wettbewerb für Verkehrzeichenerkennung. Es war, sagt Schmidhuber, "das erste übermenschlich gute Resultat in der Geschichte der Computer Vision".

Doch erst ein Jahr später wurde das Potenzial tiefer neuronaler Netzen mit Backpropagation einer größeren Öffentlichkeit bewußt, als Hintons Studenten den Wettbewerb ILSVRC (ImageNet Large Scale Visual Recognition Competition) haushoch gewannen. In diesem Wettbewerb sollen künstliche Intelligenzen Bilder richtig klassifizieren. Grundlage ist eine Datenbank mit mittlerweile zehn Millionen gekennzeichneten Bildern, die verschiedenste Objekte zeigen, darunter allein 120 verschiedene Hunderassen. Das Netzwerk von Hintons Team machte fast zehn Prozent weniger Fehler als alle anderen künstlichen Intelligenzen – eine erhebliche Verbesserung. Die KI-Forscher waren geschockt.

Googles neuronale Netzwerke

Der Rest ist jüngere Geschichte: DNNReserach, das Start-up von Geoffrey Hinton, wurde direkt von Google gekauft und Hinton wurde samt einiger Studenten Mitarbeiter. In nur sechs Monaten schuf Google mit Hintons tief lernenden Netzen eine neue Fotosuche. Im Jahr 2014 kam das Unternehmen DeepMind hinzu, das hinter AlphaGo steckt. Mittlerweile ist auch die Google-Bildersuche um ein tiefes neuronales Netz bereichert, im Jahr 2015 zog ein solches Netzwerk auch bei Google Translate ein. Und aus KI-Forschungslaboren sind künstliche neuronale Netze nicht mehr wegzudenken.

"Wie schwer die Wahrnehmung von natürlichen Stimuli ist, das hat die KI-Forschung lange unterschätzt", sagt Hinton. Die symbolische KI hat sich daher als der eigentliche Irrweg erwiesen. All die Filter per Hand zu programmieren, die aus Millionen verschiedenster Bilder genau die richtigen Eigenschaften (Features) zu erkennen, die auf eine Katze hindeuten, sei praktisch unmöglich, sagt Hinton. Tiefe neuronale Netze aus künstlichen Neuronen hingegen lernen solche Bild-Features dank Backpropagation heute selbstständig. Ihre künstlichen Neurone funktionieren dabei, bis auf kleine Anpassungen, genauso wie jene von McCulloch und Pitts vor mehr als 70 Jahren.

Der Babelfisch braucht rekurrente Netze

An dieser Entwicklung ist nicht nur eine Veränderung in der Technologie der KI ablesbar. Auch die Probleme, mit denen sie sich befasst, sind heute andere. Statt simpler Objekte, die mit vielen Regeln in ellenlangen Computerprogrammen verarbeitet werden, stehen heute Inputs im Vordergrund, die viel komplexer sind, zum Beispiel Bilder oder Sprache.

Für den künstlichen Babelfisch braucht man allerdings gleich zwei tiefe, sogenannte LSTM-Netze. Diese Netze wurden im Jahr 1997 von Sepp Hochreiter und Jürgen Schmidhuber vorgestellt. Sie gehören zur Klasse der rekurrenten Netzwerke, die die Fähigkeit besitzen, als Reihe präsentierte Inputs zu erlernen, wie zum Beispiel geschriebene oder gesprochene Sätze. Im Babelfisch-Szenario lernt ein solches Netz ganze englische Sätze, und zwar so, dass die Aktivitätsmuster der Neurone in den tiefen Schichten bei ähnlichen Sätzen ähnlich aussehen und bei verschiedenen Sätzen verschieden. Diese Muster nennt Hinton "Gedankenvektoren" oder ganz einfach "Gedanken".

Ein solcher aus einem Satz gefilterter Gedanke wird dann in das zweite, ebenso funktionierende, aber auf Französisch trainierte Netzwerk kopiert. Als Output erzeugt dieses eine Reihe von Wahrscheinlichkeiten, die anzeigen, welche französischen Wörter bei diesem Gedanken am Anfang des Satzes stehen könnten. Zum Beispiel "La = 0,17" oder "Je = 0,23". Der entscheidende Schritt: Passt eines dieser französischen Wörter zum ersten Wort des englischen Satzes, etwa "The" oder "I", verstärkt der Backpropagation-Algorithmus die Verbindungen in beiden Netzwerken so, dass diese Übersetzung wahrscheinlicher wird. Und dann geht es mit dem zweiten Wort weiter bis zum Ende des englischen Satzes.

Mit diesem Training übersetzt das Doppelnetzwerk ganze Sätze so, als ob es sie erst zu Gedanken macht und diese dann in der anderen Sprache mit neuen Worten ausdrückt. Dem 2001 verstorbenen Technik-Enthusiasten Douglas Adams hätte das sicherlich gefallen.

Update: Dieser Artikel wurde am 19.09.2017 erweitert. Insbesondere wurden die Beiträge von Konrad Zuse, Seppo Linnainmaa und Alexey Grigorevich Ivakhnenko hinzugefügt. Wir danken Prof. Jürgen Schmidhuber für seine Hinweise.