Roboter, die bluffen – Seite 1

Dass sich die Pokerwelt womöglich drastisch ändert, stand dort, wo es vielleicht nicht jeder vermutet hatte. Noam Brown und Tumas Sandholm veröffentlichten Anfang Juli im Fachjournal Science einen Artikel. Ihr Roboter, so schrieben sie, hat gegen die besten Pokerspieler der Menschen gewonnen. Pluribus heißt die künstliche Intelligenz (KI), ein Bot, und er benötigt im Gegensatz zu vielen seiner Artgenossen nur wenig Arbeitsspeicher: 128 Gigabyte. Die beiden Forscher schrieben von einem "Meilenstein".

Vor allem die Pokerszene versetzte Pluribus in Aufregung. Denn der Bot hatte gegen 13 der besten Spieler der Welt dauerhaft gewonnen, unter ihnen auch der Schweizer Linus Löliger, der vielleicht beste Onlinespieler der Welt. 10.000 Hände wurden in zwölf Tagen gespielt. In einer zweiten Versuchsanordnung, in der ein Profi gegen fünf Bots antrat, war die KI auch besser. Am Ende hatte sie das 480-fache ihres Einsatzes wieder. "Wenn es echtes Geld gewesen wäre, hätte Pluribus etwa 1.000 Dollar pro Stunde verdient", sagt einer seiner Schöpfer.

KI und der Sport

Poker ist der nächste Sport, in dem eine KI beachtliche Erfolge erzielt und den Menschen besiegt hat. Im Schach gelang es mit Deep Blue. Auch der beste Go-Spieler wurde sensationell und viel früher als erwartet von einem Google-Computer besiegt. Nun also Poker, ein Spiel, von dem viele immer noch meinen, er basiere vor allem auf einer glücklichen Fügung oder dem richtigen Bein beim Aufstehen. Doch der Erfolg von Pluribus hatte sich angedeutet, die beiden Forscher der Carnegie Mellon University hatten schon andere erfolgreiche Pokerbots programmiert. Und sie versprechen der Forschung (und der Pokerszene) einen großen Nutzen von ihrer Entdeckung.

Bisher beschränkten sich die Erfolge von KIs im Poker auf das Heads-Up, dem Duell zweier Spieler. Neu an Pluribus ist, dass die KI sich gegen mehrere Spieler behauptet. Die größte Hürde war: Im Gegensatz zum Schach sind beim Poker nicht alle Informationen bekannt, das Blatt der Gegner etwa und die im Laufe einer Runde neu dazukommenden Karten bei der beliebtesten Variante, dem Texas Hold'em. Das macht es einer KI unmöglich, alle Varianten durchzurechnen.

Das versuchten die Forscher mit Pluribus erst gar nicht. Stattdessen gelang es ihnen, der KI ein vermeintlich menschliches Verhalten beizubringen: Der Bot blufft. "Er ist ein Monsterbluffer", sagte Jason Les, einer der Pokerprofis, der gegen ihn antrat. Kristian Kersting, KI-Forscher an der TU Darmstadt, sagt: "Am spannendsten ist es doch, dass Pluribus zeigt: Menschliche Züge, wie etwa ein Bluff, die wir als Intuition beschreiben, können algorithmisch abgebildet werden. Wir lernen mehr über uns als über die KI."

Die Forscher ließen ihre KI acht Tage lang offline gegen sich selbst spielen. Da lernte sie offenbar, dass sich bluffen lohnt. Zu Beginn verhielt sich der Computer wie ein Anfänger, doch er häufte im Trial-and-Error-Verfahren immer mehr Wissen an. So entstand sein Datenschatz, der mit jedem Spiel weiterwächst. "Blaupause" nennen die Forscher Pluribus' Strategiegerüst, das mit erstaunlich wenig Rechenaufwand zustande kam.

Auf diese "Blaupause" greift Pluribus dann immer wieder zurück und sucht nach Lösungen. Und wurde damit zum undurchschaubaren Gegner. "Es war ziemlich hart, weil man kein Muster erkannte", sagt Darren Elias, der gegen fünf Bots gleichzeitig antrat. Mal spielte Pluribus die gleiche Hand so, mal so, und setzte zum Bluffen viel höhere Beträge ein, als Menschen es tun würden. "Die Strategie unterscheidet sich stark von der von Menschen, weil Pluribus auch nie gelernt hat, wie ein Mensch zu spielen", sagt Erfinder Brown.

Von den Bots lernen

Genau das macht ihn so nervig. Normalerweise durchschauen Profis in 10.000 Händen ihre Mitspieler oder können sie zumindest gut einschätzen. Sie testen im sogenannten Metagame ihre Gegenüber, setzen Beträge an Stellen, an denen es eigentlich keinen Sinn macht, nur um ein falsches Bild von sich zu vermitteln. Gegen Pluribus klappt das häufig nicht mehr. Er spielt eben, wie man sich eine Maschine vorstellt: Dauerhaft besser als man selbst.

Auch benutzen professionelle Spieler in manchen Situationen einen Randomizer, um sich unvorhersehbar zu machen. Sie lassen den Zufall entscheiden. Gute Gegner würden ansonsten eine Strategie entdecken, zum Beispiel die, dass man das stärkste Blatt immer mit dem maximalen Einsatz setzt. Der Bot hat ihnen auch das voraus und spielt automatisch variabel. Er trifft viel häufiger die richtige Entscheidung. Zu der Rechenleistung, die eigene Hand permanent mit dem Datenschatz abzugleichen, ist ein Mensch schlicht nicht imstande. Die KI wird hingegen dadurch immer besser.

"Es war faszinierend"

Die Reaktionen auf das neue Pokergenie fallen unterschiedlich aus. Manche befürchten das Ende des Onlinepokers. Schon heute sind Botnetzwerke im Onlinepoker ein Problem, die großen Anbieter müssen viel Energie und Geld aufwenden, um ihr Geschäft zu schützen. Die High-Stakes-Runden, in denen es um viel Geld geht, laufen nur, wenn die beteiligten Profis wirklich wissen, wer online mit ihnen am Tisch sitzt. Mit der Erfindung einer nahezu perfekt spielenden KI wird sich dieses Problem noch verschärfen, auch wenn die Erfinder ihren Bot geschützt haben.

Von ihm versprechen sich die Forscher aber vor allem Vorteile. An ihm zeigt sich ein Ideal der KI-Wissenschaft: Menschen könnten vom Bot lernen. "Bots sind ein wichtiger Bestandteil des Pokers und es war faszinierend, erste Erfahrungen mit Pluribus zu sammeln", sagte zum Beispiel Michael Gagliano, einer der Profis. Der Bot räumte mit dem menschlichen Vorurteil auf: Donk bets, Einsätze, die sich gemessen an den Hand-Wahrscheinlichkeiten nicht lohnen, lohnen sich doch. Er selbst machte sie häufiger. Eine andere Strategie, von der Profis ohnehin abraten, entlarvte er: Limpen, mit einer schwachen oder mittelguten Hand mitzugehen, nur um die ersten drei in der Mitte aufgedeckten Karten (Flop) zu sehen, lohnt sich tatsächlich nicht.

Eine Inselbegabung

Einer der beiden Pluribus-Erfinder, Sandholm, hat Firmen gegründet, die einen Wissenstransfer ermöglichen sollen. Er will mit der gleichen Technologie unter anderem in der Medizin Fortschritte erzielen. Die Erfinder sagen, ihre Erfindung reiche weit über das Poker hinaus. Schließlich gäbe es viele andere Situationen, in denen mehrere Personen beteiligt sind und es unbekannte Variablen gibt. Autonomes Fahren zum Beispiel, oder die Finanzwelt. "Es würde mich wundern, wenn sie sich mit dem Pluribus zugrunde liegenden Algorithmus nicht auch das anschauen", sagt Kersting.  

Und doch bleibt er, wie einige seiner Kollegen auch, etwas verhaltener als die Erfinder: "Damit ist ja nicht gesagt: Maschinen können bluffen. Sondern diese Maschine kann in dieser Situation bluffen. Ob sie das auch im Finanzsektor kann, das müssen wir erst prüfen, aber das ist ja das Spannende an der KI." Es seien Inselbegabungen, die man sehen kann.

Natürlich begegnen den Forschern auch in dieser Debatte die typischen Roboterängste, die sich zusammenfassen lassen im Satz: Die Maschinen übernehmen uns. Tatsächlich sagt Kersting: "In der KI-Forschung ist es viel schwieriger, zu sagen, dass etwas nicht geht." Doch nicht jedem Sport droht Roboterkonkurrenz: "Dort, wo man sich bewegen muss, da sind wir noch nicht so weit", sagt Kersting. Das Gleichgewicht und die Physik machen es der KI bislang noch unmöglich, auszurechnen, wie man zum Beispiel zu einem wunderbaren Seitfallzieher ansetzt.