Der Boom der künstlichen Intelligenzen (KI) schafft schon jetzt ganz neue Jobs: die der professionellen Spielverderber. Denn während Google, Facebook, Baidu und andere Unternehmen ihren künstlichen neuronalen Netzen immer mehr beibringen, denken sich andere neue Möglichkeiten aus, diese Netze zu verwirren und zu täuschen.

Adversarial Machine Learning heißt die vergleichsweise neue Kategorie der Computersicherheit, der adversary ist der Gegner der lernenden Maschine. Das können Forscher derselben Unternehmen sein, die KI eigentlich vorantreiben wollen, aber auch Künstler, Hacker und irgendwann sogar Kriminelle. Sie versuchen, künstliche Intelligenzen auszutricksen, zum Teil sogar ohne dass Menschen es mitbekommen.

In den vergangenen Wochen hatten einige von ihnen dabei beeindruckende Erfolge. Die haben zur Folge, dass sich KI-Entwickler nun Gedanken über Gegenmaßnahmen machen müssen.

Wenn die KI einen Ballon für einen Hund hält

Bild mit hervorgehobener Perturbation

So haben Forscher aus der Schweiz und Frankreich kürzlich nachgewiesen, dass sie verschiedene neuronale Netze, die alle auf die Klassifizierung von Objekten trainiert wurden (sogenannte Classifier), mit den immer gleichen Störbildern dazu bringen können, Objekte völlig falsch zu kategorisieren. Sie legten über Fotos von Ballons, Joysticks, Flaggenmasten oder Eidechsen bestimmte Pixelmuster, die im Gesamtbild für das menschliche Auge praktisch unsichtbar sind. Die neuronalen Netze aber registrieren die Muster und nehmen sie in ihre Berechnungen auf. Das Ergebnis: Der Ballon, der Flaggenmast und die Eidechse wurden als Labradore klassifiziert, der Joystick als Chihuahua.

(Die Geschichte und Funktionsweise neuronaler Netzwerke erklären wir hier ausführlich.)

Das mag harmlos sein, solange es nur dazu führt, dass eine KI von Google oder Apple ein Foto aus der privaten Kameragalerie falsch klassifiziert. Aber wie einer der beteiligten Wissenschaftler in diesem Video demonstriert, ließen sich auf diese Weise auch Verkehrsschilder manipulieren. Die Sensoren von fahrerlosen Autos würden die Schilder dann zwar noch registrieren, aber die KI dahinter würde sie nicht mehr als Schilder erkennen – was theoretisch fatale Folgen haben könnte.

Universal Adversarial Perturbations (Moosavi-Dezfooli et al., 2016) heißt die Studie. Perturbationen oder einfach Störungen heißen die Muster, mit denen eine KI in die Irre geführt werden kann. Dass so etwas möglich ist, darauf weist das IT-Portal The Verge hin, ist im Prinzip seit mindestens 2013 bekannt. Neu ist, schreiben die Forscher, dass sich universale Perturbationen mit speziellen Algorithmen berechnen lassen, die erstens mit hoher Wahrscheinlichkeit auch solche Bilder wirksam manipulieren, auf die das Pixelmuster nicht speziell angepasst wurde. Zweitens seien ihre Perturbationen "im doppelten Sinn universell einsetzbar", weil sie gegen ganz verschiedene neuronale Netzwerke eingesetzt werden können, wenn auch nicht immer mit der gleichen Erfolgsquote.

Auch Systeme, die den Inhalt von Videos erkennen sollen, lassen sich überlisten. Erst vor wenigen Wochen hatte Google verkündet, seine KI könne nun auch Objekte in Videos erkennen. Für die Entwicklung von Classifiern, die lange Zeit vor allem aus Systemen zur Text- und Fotoerkennung bestanden, ist das ein großer Fortschritt. Aber ihn zu stoppen, ist bisher trivial, wie ein Experiment an der Universität von Washington (Hosseini et al., 2017) zeigt: Es reicht, alle zwei Sekunden ein einzelnes Bild von einem bestimmten Objekt in ein Video einzufügen – schon erkennt die Google-KI praktisch nur noch dieses Objekt. 

Bei einer typischen Bildrate von 25 Bildern pro Sekunde wäre das ein Bild aus 50 und daher für das menschliche Auge nicht wahrnehmbar. Die KI aber kommt bei einem bekannten Video der Verhaltensforscherin Jane Goodall mit Gorillas, in das alle zwei Sekunden ein Teller Spaghetti eingebaut wird, zu dem Schluss, dass es sich um ein Video über Pasta handelt.

Theoretisch denkbar wäre, mit einer solchen sogenannten image insertion attack die automatische Auswertung von Überwachungsvideos zu sabotieren. Allerdings bräuchte ein Angreifer dazu Zugriff auf das Videomaterial, beziehungsweise einen Komplizen innerhalb der überwachenden Organisation mit einem solchen Zugriff.