Eine humanoide Figur, die wild mit den Armen fuchtelnd über virtuelles Geröll läuft, bis sie stolpert. Die Hindernisse erst umkurvt, dann aber doch frontal gegen eine Wand läuft und filmreif zu Boden geht. So sieht es aus, wenn eine künstliche Intelligenz (KI) sich selbst das Laufen beibringt.

DeepMind, die 2014 von Google gekaufte KI-Forschungseinrichtung in London, hat das stellenweise ziemlich lustige Video produziert. Es gehört zu einem Paper, in dem die Forscher erklären, wie sie verschiedene KI-Agenten, also von DeepMinds Software gesteuerte Figuren, durch einen Hindernis-Parcours nach dem nächsten schicken, bis diese gelernt haben, sich auch in einem unbekannten virtuellen Terrain zu bewegen.

Reinforcement Learning, bestärkendes Lernen, heißt die Methode, die auch andere KI-Forscher nutzen, um animierte Figuren durch virtuelle Welten laufen zu lassen. Vereinfacht gesagt bekommen die Agenten eine Art Belohnungssignal, wenn sie eine Aufgabe gelöst haben. Daraus lernen sie, wie sie sich verhalten sollen. Das funktioniert immer dann gut, wenn die Belohnung klar definiert ist, schreiben die DeepMind-Spezialisten. Ein Beispiel dafür ist der Highscore in Videospielen. Ende 2013 hatte DeepMind das selbst demonstriert, als seine KI lernte, Games wie Breakout und Pong besser zu spielen als Menschen.

Es gebe aber "viele andere Aufgaben, in denen die 'richtige' Belohnung weniger eindeutig ist und in denen es zu überraschenden und vom Entwickler nicht erwarteten Ergebnissen führen kann, wenn eine Belohnung allzu naiv ausgewählt wird". Das gelte besonders auch für die komplexe Aufgabe, sich von A nach B zu bewegen. Erst recht, wenn dazwischen ein Abgrund klafft oder eine Hürde steht. Üblicherweise werden die Belohnungsfunktionen deshalb sorgsam manuell erstellt oder aus konkreten Beispielen abgeleitet. Das aber ist nach Ansicht der DeepMind-Forscher nicht der Sinn von bestärkendem Lernen.

Sie wollten beweisen, dass eine KI auch durch eine simpel gehaltene Belohnungsfunktion ein "robustes", also variables und trotzdem zuverlässiges Verhalten in komplexer Umgebung erlernen kann, wenn nur das Training ausreichend abwechslungsreich gestaltet ist. Sprich: Das Strichmännchen wird von ganz allein ein guter Hindernisläufer, wenn es in zunehmend schwierige Gelände geschickt wird und so lange Belohnungssignale bekommt, wie es sich möglichst schnell vorwärts bewegt und nicht hinfällt.

Zusätzlich zum Humanoiden schickten die Wissenschaftler auch eine aufrecht laufende Figur ohne Oberkörper sowie eine vierbeinige Figur, die an ein Insekt erinnert, durch die Testumgebungen. Bewegen konnten sich alle drei so, wie es ihre virtuellen Gelenke und die physikalischen Gesetze der virtuellen Welt erlaubten.

Das Trainingsgelände, erzeugt mithilfe der MuJoCo-Engine, erinnert an prozedural generierte Plattform-Games und beinhaltet unter anderem Wände, Hürden, unebene Passagen, Steigungen und Abgründe, die es zu überwinden gilt. Sichtbar wird das im Video. Die eigentliche wissenschaftliche Leistung der DeepMind-Forscher ist die Anpassung und Verbesserung bereits bekannter Algorithmen für bestärkendes Lernen.

Das Ergebnis: Nicht alle KI-Agenten lernten gleich schnell, manche stellten sich ein wenig dümmer an als andere. Aber grundsätzlich gilt, dass ein Agent von ganz allein Fortbewegungstechniken wie Springen und Ausweichen entwickeln kann. Die humanoiden Figuren konnten sich nach dem Training auch in unbekanntem Gelände sicher fortbewegen, selbst wenn sie virtuell geschubst wurden oder auf einen instabilen Untergrund geschickt wurden.

Sogar eine Art Hochgeschwindigkeits-Limbo führten die Strichmännchen vor, wenn sie unter Hindernissen hindurchliefen. Ihnen spezielle Belohnungen zu geben, damit sie zum Beispiel ihre Hürdenlauftechnik verbessern, war nicht nötig. All das, sagen die Forscher, geht über die Lernfähigkeit anderer rennender künstlicher Intelligenzen hinaus.