Was führt eher zum Ziel: Kooperation oder Aggression? Das ist meist situationsabhängig. Und das nicht nur beim Menschen, wie Entwickler von Google DeepMind herausgefunden haben. Sie haben erforscht, wie Agenten mit künstlicher Intelligenz (KI) in bestimmten Situationen miteinander interagieren. Das ist wichtig, wenn künftig Multi-Agenten-Systeme eingesetzt werden sollen, um beispielsweise den Verkehr zu regeln oder Prozesse in der Wirtschaft zu steuern.

Die Forscher ließen KI-Systeme in zwei Computerspielen gegeneinander antreten, um herauszufinden, wie diese miteinander interagieren. Dabei hatten die KI-Spieler zwei Möglichkeiten, um zum Erfolg zu kommen: Sie konnten kooperativ handeln oder dem Gegner schaden. Zum Einsatz kamen Beispiele aus den Sozialwissenschaften und aus der Spieltheorie, etwa soziale Dilemmata wie das Gefangenendilemma.

Im Spiel Gathering mussten die beiden KI-Systeme so viele Äpfel sammeln wie möglich. Sie hatten zudem die Möglichkeit, die Gegner mit einem Laser zu beschießen. Traf ein Spieler, wurde der Gegner für eine Weile entfernt. Der erste Spieler hatte dann keine Konkurrenz beim Sammeln. Ein aggressives Vorgehen konnte also bei dem Spiel erfolgversprechend sein.

Eine leistungsfähigere KI greift öfter mal zum Laser

Die KI-Agenten reagierten durchaus menschlich: Sie lernten im Verlauf von Tausenden von Partien, dass aggressives Verhalten angebracht ist, wenn Ressourcen, also die Äpfel, knapp sind. Solange genügend Äpfel da waren, begnügten die Systeme sich mit dem Sammeln.

Waren aber nur noch wenige Äpfel verfügbar, griffen die KI-Spieler eher mal zum Laser, um den Gegner außer Gefecht zu setzen. "Eine weniger aggressive Verhaltensweise ergibt sich aus einem Lernprozess in einer relativ reichhaltigen Umgebung mit weniger Möglichkeiten für aufwendige Maßnahmen", schreiben die Forscher in einem Aufsatz.

Das Bild änderte sich, als eine leistungsfähigere KI ins Spiel kam, die komplexere Strategien anwenden konnte. Sie tendierte dazu, auf den Gegner zu schießen – egal, wie viele Äpfel noch da waren. Das DeepMind-Team erklärt sich das so: Das Zielen auf den beweglichen Gegner ist im Vergleich zum friedlichen Einsammeln das komplexere Verhalten und erfordert mehr Ressourcen. Anders gesagt: die leistungsfähigere KI setzt auf die komplexere Strategie, weil sie es kann – und sich davon letztlich einen Vorteil verspricht.



Beim zweiten Spiel, Wolfpack, übernahmen die KI-Spieler jeweils einen Wolf. Gemeinsam mussten sie eine Beute zwischen Hindernissen jagen. Die Idee dahinter: Die Beute ist gefährlich, also einfacher zu erlegen, wenn beide zusammenarbeiten. Außerdem ist die Gefahr, die Beute an Aasfresser zu verlieren, bei zwei Wölfen geringer. Deshalb bekommen die Wölfe eine höhere Belohung, wenn sie sie sich im Moment des Erlegens in der Nähe befinden, als wenn einer weit entfernt ist. So sah das in der Praxis aus:



Wie beim ersten lernten die KI-Spieler auch im Laufe des zweiten Spiels dazu. Hier hätten – anders als bei Gathering – die leistungsfähigeren KI-Systeme gemerkt, dass Kooperation die Strategie sei, die zum Erfolg führe. Die Fähigkeit, komplexe Strategien zu nutzen, habe also zu mehr Kooperation der KI-Agenten geführt, schreiben die Forscher in einem Blogpost zur Untersuchung.

Das Verhalten von DeepMinds KI-Agenten ändert sich demnach abhängig von der Situation, in der sie sich befinden: Hat der Agent mehr Erfolg durch Aggression, ist er aggressiv. Erscheint Kooperation die bessere Variante, kooperiert er. Durch ihre Studie seien sie jetzt in der Lage, resümieren die Forscher, "komplexe Multi-Agenten-Systeme wie die Wirtschaft, Verkehrssysteme oder die ökologische Gesundheit unseres Planeten besser zu verstehen und zu steuern – die alle von unserer Zusammenarbeit abhängen".