Als Bub begriff ich: Ich kann nichts Bedeutsameres erreichen, als etwas zu bauen, das lernt, klüger als ein Mensch zu sein. Eine Künstliche Intelligenz (KI), die sich rapide weiter selbst verbessert. Auch erschien es offensichtlich: Da der weitgehend lebensfeindliche, doch höchst roboterfreundliche Weltraum weit mehr Ressourcen bietet als der dünne Biosphärefilm der Erde, werden viele KI bald das Interesse an uns verlieren, das Sonnensystem besiedeln und umgestalten, dann innerhalb von Jahrmillionen die Milchstraße, und schließlich innerhalb von Jahrmilliarden auch den Rest des erreichbaren Universums, im Zaum gehalten nur von der beschränkten Lichtgeschwindigkeit. (KI reisen gern per Funk von Sendern zu Empfängern. Deren Errichtung kostet allerdings Zeit.)

Nach gut zehntausend Jahren Zivilisationsgeschichte, so sah ich es, schien das Universum bereit zu sein, seinen nächsten Schritt zu tun in Richtung noch unfassbarerer Komplexität, einen Schritt, vergleichbar mit der Entwicklung des Lebens vor über drei Milliarden Jahren. Ich empfand es als großes Glück, diese Zeit mitzuerleben, dieser Revolution beizuwohnen und vielleicht etwas zu ihr beizutragen.

Seither arbeitete ich an selbstverbessernden allseits einsetzbaren KI, zunächst noch recht allein und oft eingeschränkt durch langsame Rechner. Doch schon in den 1970er Jahren war abzusehen, dass Maschinen bald nach der Jahrtausendwende die rohe Rechenkraft eines Menschenhirns besitzen würden, denn jedes Jahrzehnt verhundertfachte sich die für eine Deutsche Mark erhältliche Rechenleistung. Dieser Trend hält noch an, und in einigen Jahrzehnten werden relativ billige Rechner mit der Rechenleistung der gesamten Menschheit existieren. Vielen ist nicht bewusst, wie rasch diese exponentielle Entwicklung voranschreitet.

Rohe Rechenkraft ist natürlich nichts wert ohne selbstlernende Software, an deren Entwicklung ich seit den 1980er Jahren arbeitete, oft in Form künstlicher neuronaler Netzwerke. Diese Systeme lernen quasi durch Erfahrung selbst, durch Ausprobieren und Scheitern. Ihr Aufbau orientiert sich an den Nervenzellen im Gehirn, und wenn eine solche KI lernt, bilden sich zwischen ihren einzelnen "Nervenzellen" manchmal neue Verbindungen, alte werden gestärkt oder abgeschwächt oder gelöscht.

Meine erste Forschungsgruppe an der Technischen Universität München konzentrierte sich im Gegensatz zu anderen Teams schon früh auf besonders tiefe und rückgekoppelte Netze, die zwar mächtiger und effizienter sind als andere, zunächst aber auch mehr Schwierigkeiten machten. Damals waren Computer eine Million Mal langsamer als heute, und mit unseren ersten funktionstüchtigen, neuronalen "Very Deep Learning"-Maschinen (seit 1991) konnten wir nur kleine Spielzeugexperimente durchführen. Aber unsere Hartnäckigkeit zahlte sich aus. Denn heute lösen unsere Netze wirklich wichtige Probleme. Seit 2009 gewann mein Team – damals an der Technischen Universität München und am Schweizer KI-Labor namens IDSIA, Istituto Dalle Molle di Studi sull’Intelligenza Artificiale (affiliert mit USI und SUPSI) – weit mehr Wettbewerbe zum maschinellen Lernen als jedes andere. 2011 erzielte es die ersten übermenschlichen Ergebnisse bei visueller Mustererkennung (für Rechner schwieriger als Schach, denn schon seit 1997 ist der beste Schachspieler kein Mensch mehr). Google, Microsoft, IBM, Baidu und viele andere verwenden unsere Verfahren, die unter anderem die beste Handschrifterkennung, Spracherkennung, maschinelle Übersetzung oder Bilderkennung ermöglichen. Letztere kommt bei selbstfahrenden Autos oder bei der Krebsfrüherkennung zum Einsatz.

Dieser Artikel stammt aus der ZEIT Nr. 22 vom 19.5.2016.

Oft werde ich gefragt: Haben Sie ein Demo? Dann frage ich zurück: Haben Sie ein Smartphone? Seit 2015 basiert nämlich auch Googles Spracherkennung auf unseren Methoden, sie verbesserten die Diktierfunktion dramatisch und sind nun Milliarden Nutzern zugänglich. Grundlage hierfür sind zwei Beiträge meines Teams: das sogenannte Lange Kurzzeitgedächtnis (Long Short-Term Memory, LSTM, seit den 1990er Jahren), ein rückgekoppeltes neuronales Netzwerk, das viel besser funktioniert als frühere Netzwerke dieser Art, sowie ein dazugehöriges Lernverfahren namens "Connectionist Temporal Classification" (CTC, seit 2006). Google nutzt unsere Techniken zudem für viele andere Dinge wie etwa die Übersetzung von einer Sprache in eine andere, für die automatische Erstellung von Bildunterschriften und Beantwortung von E-Mails. Google wird wohl bald zu einem riesigen LSTM.