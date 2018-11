Selten haben sich Computer so schön geirrt wie zuletzt die in Googles Labor. Mitte Juni hatten Google-Forscher eindrucksvoll demonstriert, welch fantastische Bilder künstliche neuronale Netze erzeugen, wenn man ihnen ihre verborgenen Suchmuster entlockt. Die surrealen Werke gingen um die Welt, woraufhin Google einen Code veröffentlichte, mit dem sich diese Netzwerke auch am heimischen Rechner simulieren lassen.

Seither gibt es geradezu einen Wettstreit um die spektakulärsten Foto- und sogar Videomanipulationen, auf Twitter werden sie verbreitet unter dem Hashtag #DeepDream. Ein wenig in den Hintergrund gerückt ist die Frage, was die Google-Forscher mit ihren "Traumbildern" eigentlich bezweckten. Dabei ist die Antwort ebenso faszinierend: Sie wollten besser verstehen, wie die von ihnen selbst geschaffene künstliche Intelligenz überhaupt funktioniert.

Inception heißt das Netzwerk, das die zauberhaften Welten geschaffen hat. Im vorigen Jahr hat Inception den Large Scale Visual Recognition Challenge gewonnen, in dem neuronale Netze darum wettstreiten, die meisten Fotos richtig zu klassifizieren; ist es ein Gesicht, ein Hund, ein Vogel, ein Auto, eine Landschaft? Bei dieser Sortierarbeit setzte das Netzwerk von Google "einen neuen Standard", wie die Schöpfer von Inception stolz in einem Fachartikel schrieben.

1/13 Dieses bekannte Motiv vom G-7-Gipfel auf Schloss Elmau haben wir mehrfach durch die verschiedenen Schichten eines simulierten neuronalen Netzwerks geschickt. © Michael Kappeler/dpa 2/13 Wenn man immer wieder dieselbe Schicht des Netzwerks jene Bildelemente verstärken lässt, die sie schon im Durchlauf zuvor verstärkt hatte, kommt so etwas dabei heraus. © Michael Kappeler/dpa/verfremdet von ZEIT ONLINE 3/13 Trevor Paglens Foto vom NSA-Hauptquartier in Fort Meade ... Trevor Paglen/Public Domain 4/13 ... wird mit demselben Trick zur Fantasielandschaft. Gut erkennbar ist hier, dass das künstliche neuronale Netzwerk unter anderem darauf trainiert ist, Tiere und Türme zu erkennen. Nach mehreren Durchläufen hat es jene Pixel, die es für Teile eines Tieres oder Turms hält, so weit verstärkt, dass tatsächlich entsprechende Strukturen entstehen. Trevor Paglen/Public Domain/verfremdet von ZEIT ONLINE 5/13 Illustration vom Landeroboter Philae auf dem Kometen Tschuri ... © ESA/AOES Medialab/dpa 6/13 ... nach einem ersten Durchlauf durch das künstliche neuronale Netzwerk auf der Basis von Googles veröffentlichtem Code: In der Standardeinstellung ist das Modell offenbar auf die Erkennung von Hunden und Schnecken spezialisiert. Deshalb nennen manche es "Puppy-Slug"-Modell. © ESA/AOES Medialab/dpa/verfremdet von ZEIT ONLINE 7/13 Nach zehn und mehr Durchläufen hat das Bild nicht mehr viel mit dem Ausgangsmotiv zu tun. Man könnte auch rein zufälliges Bilderrauschen – zum Beispiel den Screenshot eines Fernsehtestbilds – durch das neuronale Netzwerk schicken, und nach ausreichend vielen Durchläufen würde etwas Ähnliches dabei herauskommen wie hier. © ESA/AOES Medialab/dpa/verfremdet von ZEIT ONLINE 8/13 Lionel Messi im Champions-League-Finale von Berlin © AP Photo/Frank Augstein 9/13 Das Foto haben wir mit verschiedenen Einstellungen durch unser simuliertes neuronales Netzwerk geschickt. Zunächst mit dem bekannten "Puppy-Slug"-Modell ... © AP Photo/Frank Augstein/verfremdet von ZEIT ONLINE 10/13 ... und dann mit einem anderen Modell. Nach mehreren Durchgängen damit glaubt das Netzwerk, überall hundeähnliche Strukturen zu erkennen. © AP Photo/Frank Augstein/verfremdet von ZEIT ONLINE 11/13 Das berühmte Gruppen-Selfie von Ellen de Generes bei der Oscar-Verleihung 2014 ... © Ellen DeGeneres/Twitter via Getty Images 12/13 ... nach einem ersten Durchgang ... © Ellen DeGeneres/Twitter via Getty Images/verfremdet von ZEIT ONLINE 13/13 ... und mehreren weiteren Iterationen im neuronalen Netzwerk. Wer so etwas selbst ausprobieren möchte, findet hier eine – allerdings nicht ganz triviale – Anleitung: http://ryankennedy.io/running-the-deep-dream/ © Ellen DeGeneres/Twitter via Getty Images/verfremdet von ZEIT ONLINE

"Dabei gibt es die Art von Netzwerken schon lange," sagt Aditya Khosla, Forscher am Labor für Computerwissenschaften und künstliche Intelligenz des Massachusetts Institute of Technology (MIT). Khosla hat ein zweites Netzwerk mitentwickelt, das die Google-Forscher neben Inception verwendet haben, um ihre Traumbilder zu erschaffen. Er weiß also genau, was neuronale Netzwerke können. "Klar, es gab in den letzten paar Jahren massive Verbesserungen bei der Kategorisierung von Objekten, neuerdings auch einige von Google und Facebook. Aber wirklich neu oder überraschend ist an der Visualisierung von Google nichts", sagt er.

Das Konzept neuronaler Netze erdachten die Neurowissenschaftler Warren McCullogh und Walter Pitts von der Universität Chicago im Jahr 1943. Statt Transistoren schlugen McCullogh und Pitts als Recheneinheiten künstliche Nervenzellen (Neurone) vor, die miteinander zu Schaltkreisen verbunden sind. Anders als bei Transistoren, die Nullen und Einsen verrechnen, schicken künstliche Neurone erst dann ein Signal ab, wenn die Summe ihrer Inputs einen gewissen Schwellenwert überschreitet. Sie arbeiten also nicht mit binärer Logik, wie jeder heutige Computer, sondern mit Schwellenwert-Logik. Allerdings werden heutige künstliche neuronale Netze auf Computern simuliert, die binäre Logik stellt also die Schwellenwert-Logik dar.

Wer verstehen will, wie Inception und ähnliche Netzwerke arbeiten, schaut sich am besten den generellen Aufbau künstlicher neuronaler Netze an. Ihre Architektur folgt fast immer denselben Prinzipien: Hunderte oder Tausende künstliche Neuronen sitzen in übereinanderliegenden Schichten und sind über (simulierte) Leitungen verbunden. Ein Neuron kann die Nachbarn in seiner eigenen Schicht und Zellen der darüberliegenden Schicht über seine Leitungen aktivieren. Die oberste oder Input-Schicht funktioniert gleichsam als Sensor, der mit jenen Daten gefüttert wird, die das Netzwerk sortieren soll. Im Fall von Inception sind das Bilder, in anderen Netzwerken können das aber auch Geräusche sein. Jeder Bildpunkt aktiviert genau ein Neuron in der Input-Schicht. Die tiefste oder Output-Schicht dagegen hat meist nur eine Handvoll Neurone, für jede Bild-Kategorie eins. Diese Neurone zeigen an, zu welcher Kategorie ein Bild gehört, das der Input-Schicht präsentiert wurde.

Training für das Netzwerk

Doch bevor so ein Netzwerk diese Aufgabe gut erledigt, muss es trainiert werden. "Mit jedem Bild läuft eine Aktivitätswelle durch das ganze Netzwerk, von der Input- zur Output-Schicht", sagt Khosla. "Wenn die Output-Schicht das Bild aber der falschen Kategorie zuordnet, bekommt sie das mitgeteilt und schickt ein Fehler-Signal zurück durch das Netzwerk. Das nennt man beaufsichtigtes Lernen." Das Fehler-Signal führe dazu, das sich die Leitungen zwischen den Neuronen im gesamten Netzwerk so anpassen, dass der Fehler weniger wahrscheinlich wird. Durch diese Fehlerbehebung werden die künstlichen Neurone sozusagen auf bestimmte Bildeigenschaften abgerichtet.

Googles Inception gehört zu den sogenannten Konvolutionsnetzwerken. In dieser Art von Netzwerk reagieren die Neurone der zweiten Schicht nach erfolgreichem Training auf Hell-Dunkel-Kontraste in einer bestimmten Orientierung, also etwa auf die geraden Kanten eines Hausumrisses oder von Fenstern. Die nächsttiefere Schicht reagiert auf Kombinationen dieser Kanten, zum Beispiel hausähnliche Konturen und so weiter. Je tiefer die Schicht im Netzwerk, desto komplexer sind die Strukturen im Bild, auf die dann die Neurone reagieren.

Bewegen Sie den Slider langsam von links nach rechts, um zu den Effekt mehrerer Iterationen zu erkennen. Foto: Kay Nietfeld/dpa

Bei tiefen neuronalen Netzwerken (Deep Neural Networks) wie Inception mit seinen 22 Schichten ist jedoch oft nicht klar, auf welche Formen genau sich die Neurone in den tieferen Schichten einschießen. Das ist der Punkt, an dem die Google-Forscher nicht genau vorhersagen können, was ihre künstliche Intelligenz tut. Im neuronalen Netz sind zwar alle Regeln definiert und mathematisch simpel. Jedes Neuron aber vollführt eine nicht-lineare Funktion: Es kann auf kleine Input-Änderungen mit starken Output-Änderungen reagieren. So verhält sich das gesamte Netzwerk auf nicht-lineare Weise, und es lässt zwar in der Summe, aber nicht im Einzelnen vorherberechnen, was im Netzwerk beim Training geschieht.

"Deshalb haben viele Gruppen in den letzten Jahren Methoden entwickelt, um die Eigenschaften der tiefen Neurone visuell darzustellen," sagt Khosla. So wollen sie verstehen, wann und wie Fehlinterpretationen ausgelöst werden."Dabei zeigt man einem gut trainierten Netzwerk ein Bild und lässt die Aktivitätswelle durch das Netz laufen. Anstatt aber ein Fehlersignal zurückzuschicken, überaktiviert man die Zellen in jener tiefen Schicht, deren Eigenschaften einen interessieren. Das so manipulierteSignal läuft dann durch das Netzwerk zurück bis zur Input-Schicht." So werden im Originalbild genau jene Eigenschaften überzeichnet, die die tiefe Schicht am stärksten angesprochen haben.