Eine humanoide Figur, die wild mit den Armen fuchtelnd über virtuelles Geröll läuft, bis sie stolpert. Die Hindernisse erst umkurvt, dann aber doch frontal gegen eine Wand läuft und filmreif zu Boden geht. So sieht es aus, wenn eine künstliche Intelligenz (KI) sich selbst das Laufen beibringt.

DeepMind, die 2014 von Google gekaufte KI-Forschungseinrichtung in London, hat das stellenweise ziemlich lustige Video produziert. Es gehört zu einem Paper, in dem die Forscher erklären, wie sie verschiedene KI-Agenten, also von DeepMinds Software gesteuerte Figuren, durch einen Hindernis-Parcours nach dem nächsten schicken, bis diese gelernt haben, sich auch in einem unbekannten virtuellen Terrain zu bewegen.

Reinforcement Learning, bestärkendes Lernen, heißt die Methode, die auch andere KI-Forscher nutzen, um animierte Figuren durch virtuelle Welten laufen zu lassen. Vereinfacht gesagt bekommen die Agenten eine Art Belohnungssignal, wenn sie eine Aufgabe gelöst haben. Daraus lernen sie, wie sie sich verhalten sollen. Das funktioniert immer dann gut, wenn die Belohnung klar definiert ist, schreiben die DeepMind-Spezialisten. Ein Beispiel dafür ist der Highscore in Videospielen. Ende 2013 hatte DeepMind das selbst demonstriert, als seine KI lernte, Games wie Breakout und Pong besser zu spielen als Menschen.

Es gebe aber "viele andere Aufgaben, in denen die 'richtige' Belohnung weniger eindeutig ist und in denen es zu überraschenden und vom Entwickler nicht erwarteten Ergebnissen führen kann, wenn eine Belohnung allzu naiv ausgewählt wird". Das gelte besonders auch für die komplexe Aufgabe, sich von A nach B zu bewegen. Erst recht, wenn dazwischen ein Abgrund klafft oder eine Hürde steht. Üblicherweise werden die Belohnungsfunktionen deshalb sorgsam manuell erstellt oder aus konkreten Beispielen abgeleitet. Das aber ist nach Ansicht der DeepMind-Forscher nicht der Sinn von bestärkendem Lernen.

Sie wollten beweisen, dass eine KI auch durch eine simpel gehaltene Belohnungsfunktion ein "robustes", also variables und trotzdem zuverlässiges Verhalten in komplexer Umgebung erlernen kann, wenn nur das Training ausreichend abwechslungsreich gestaltet ist. Sprich: Das Strichmännchen wird von ganz allein ein guter Hindernisläufer, wenn es in zunehmend schwierige Gelände geschickt wird und so lange Belohnungssignale bekommt, wie es sich möglichst schnell vorwärts bewegt und nicht hinfällt.

Zusätzlich zum Humanoiden schickten die Wissenschaftler auch eine aufrecht laufende Figur ohne Oberkörper sowie eine vierbeinige Figur, die an ein Insekt erinnert, durch die Testumgebungen. Bewegen konnten sich alle drei so, wie es ihre virtuellen Gelenke und die physikalischen Gesetze der virtuellen Welt erlaubten.

Das Trainingsgelände, erzeugt mithilfe der MuJoCo-Engine, erinnert an prozedural generierte Plattform-Games und beinhaltet unter anderem Wände, Hürden, unebene Passagen, Steigungen und Abgründe, die es zu überwinden gilt. Sichtbar wird das im Video. Die eigentliche wissenschaftliche Leistung der DeepMind-Forscher ist die Anpassung und Verbesserung bereits bekannter Algorithmen für bestärkendes Lernen.

Das Ergebnis: Nicht alle KI-Agenten lernten gleich schnell, manche stellten sich ein wenig dümmer an als andere. Aber grundsätzlich gilt, dass ein Agent von ganz allein Fortbewegungstechniken wie Springen und Ausweichen entwickeln kann. Die humanoiden Figuren konnten sich nach dem Training auch in unbekanntem Gelände sicher fortbewegen, selbst wenn sie virtuell geschubst wurden oder auf einen instabilen Untergrund geschickt wurden.

Sogar eine Art Hochgeschwindigkeits-Limbo führten die Strichmännchen vor, wenn sie unter Hindernissen hindurchliefen. Ihnen spezielle Belohnungen zu geben, damit sie zum Beispiel ihre Hürdenlauftechnik verbessern, war nicht nötig. All das, sagen die Forscher, geht über die Lernfähigkeit anderer rennender künstlicher Intelligenzen hinaus.

Relevant für Robotik-Forscher, unterhaltsam für alle anderen

Dennoch hat DeepMind eine Alternative erprobt. In einem zweiten Paper beschreiben die Forscher, wie sie einer KI einfache menschliche Bewegungen per Motion-Capture-Technik vormachen, wie Aufstehen und Gehen. Die Software schaut sich die Bewegungen also ab und imitiert sie. Auf dieser Wissensbasis könne man ihr dann komplexere Bewegungsabläufe beibringen. Der Vorteil dieses Ansatzes sei es, dass sich die KI-Agenten sehr menschenähnlich bewegen. Wenn sie sich hingegen alles von Grund auf selbst beibringen, sei das oft nicht der Fall.

DeepMind ist bekannt dafür, KI-Forschung so aufzubereiten, dass sie auch für Laien zumindest in groben Zügen nachvollziehbar und vor allem unterhaltsam ist. Es ist oft Grundlagenforschung, aber ihre Anwendung oder Illustration zum Beispiel in Spielen wie Go oder Videogames verdeutlicht, wo KI im Alltag eine Rolle spielen kann.

Interessant ist die Forschungsarbeit in diesem Fall für die Robotik. Humanoide, aber auch andere Roboter, die sich in Alltagssituationen bewegen sollen, müssen schließlich lernen, mit verschiedenen Untergründen und Hindernissen klarzukommen. Ihnen vorab jede denkbare Situation beizubringen, dürfte in vielen Fällen unmöglich sein. Lernende Systeme wären viel praktischer. Doch eins zu eins umsetzen lässt sich DeepMinds Ansatz nicht unbedingt.

Theorie und Praxis verbinden

Benjamin Schlotter von der Humboldt-Universität Berlin tritt nächste Woche mit dem Nao Team Humboldt bei der Roboterfußball-Weltmeisterschaft an. Er sagt: "Bei der Übertragung von Ergebnissen einer Simulation in die echte Welt hat man immer mit dem sogenannten Reality Gap zu kämpfen" – der Lücke zwischen virtueller Welt und Realität.

Das bemerkenswerteste an dem Paper ist für Schlotter, "dass eine einzelne, so einfache Reward-Funktion (die Belohnung fürs Weiterlaufen und nicht Umfallen – Anm. des Verf.) dieses Verhalten der Agenten in verschieden komplexen Umgebungen hervorbringt". Allerdings könne man im Video auch die Schwächen des Ansatzes sehen. "Beim Laufen möchte man außer dem Vorwärtskommen noch eine Reihe anderer Dinge berücksichtigen. Zum Beispiel die benötigte Kraft sowie die Positionen von Armen und Kopf. Gerade bei uns im Roboterfußball müssen die Roboter aufpassen, dass sie mit den Armen nicht irgendwo hängen bleiben. Sie müssen sich umschauen, was ihren Schwerpunkt beeinflusst, und sie müssen aufpassen, dass sie genügend Energie haben, um 20 Minuten durchzuhalten. Die Kraft der Motoren ist ebenfalls begrenzt. All diese Dinge würde man traditionell in einer Reward-Funktion ausdrücken." Die wäre dann aber nicht mehr so simpel wie die von DeepMind.

Ein denkbarer Ansatz, Theorie und Praxis zu verbinden, wäre es, "wenn man das Lernen auf dem Roboter direkt durchführen würde", sagt Schlotter. Das sei zurzeit aber unmöglich, weil aktuelle Roboter schlicht nicht robust genug sind, um die vielen Stürze beim Lernen zu überstehen. Selbst "viele baugleiche Roboter zu verwenden, wäre keine Lösung, da auch kleine Produktionsunterschiede signifikante Auswirkungen haben können". Eine interessante Fortführung der Arbeit wäre es, den Ansatz "in einer genaueren physikalischen Simulation mit möglichst exakten Modellen existierender Roboter durchzuführen. Vielleicht lernt der virtuelle Roboter dann einen Gang, der sich übertragen lässt auf einen echten Roboter".

Lernen Roboter nicht, sich in neuen Umgebungen zurechtzufinden, passiert im schlimmsten Fall das, was am Montag Steve, dem Sicherheitsroboter widerfahren ist: An seinem Arbeitsplatz, einem Einkaufszentrum in Washington, D.C., erkannte er eine Treppe nicht und stürzte kopfüber in einen künstlichen Teich.