Im vergangenen Jahrzehnt aber hat die KI auf einmal auf vielen Gebieten kräftige Fortschritte gemacht. Googles Autos gondeln fahrerlos durch Kalifornien, IBMs Watson gewinnt beim Fernsehquiz.

Auch Smartphones dienen als Babelfisch, besonders in Weltgegenden, wo Englisch als Lingua franca nicht funktioniert. Etwa in den Touristengegenden Südkoreas. Dort streckt die des Englischen nicht mächtige Wirtin einer kleinen Pension dem Gast kurzerhand ihr Samsung-Telefon entgegen. Der kann auf Englisch hineinsprechen, dass er gern zwei Doppelzimmer mit Meerblick hätte, und sofort plärrt sein Wunsch auf Koreanisch aus dem Handy-Lautsprecher.

So eine "Face to Face"-Übersetzung ermöglichen Apps wie Google Translate oder Jibbigo, eine zum Teil in Deutschland entwickelte Software, die inzwischen von Facebook gekauft wurde. Deren Güte ist akzeptabel: Sie missverstehen vieles, produzieren unfreiwillige Komik, aber der Sinn des Gesprochenen kommt meistens rüber.

Allerdings spricht der Nutzer bei solchen Anwendungen einen Satz in den Computer und wartet auf die Übersetzung. Und weil er weiß, dass eine Maschine zuhört, spricht er besonders deutlich und korrekt. "In einer Konversation ist das ganz anders", erklärt Chris Wendt, bei Microsoft Programm-Manager fürs maschinelle Übersetzen. "Da gibt es falsche Anfänge, Stotterer, 'was ich noch, ähm, was ich noch, ähm, sagen wollte, ähm', kleine und größere Versprecher – all das will man nicht in der Übersetzung hören."

Um Gesprochenes übersetzen zu können, braucht eine Software drei Teilprogramme: Das erste extrahiert aus dem Tonsignal zuerst Laute und ordnet diese Buchstaben und Wörtern zu. Das zweite übersetzt dieses schriftliche Ergebnis in die Fremdsprache. Und das dritte liest das Ergebnis der Übersetzung vor.

Teil drei ist heute kein Problem mehr. Wir haben uns an Computerstimmen in Callcentern und Siri auf dem iPhone gewöhnt. Spracherkennung und Übersetzung dagegen sind immer noch mit hohen Fehlerraten behaftet. "Und wenn man diese zwei unzuverlässigen Technologien kombiniert, dann multiplizieren sich die Fehler", sagt Wendt. Anders ausgedrückt: Wird in der Ausgangssprache kein sinnvoller Satz erkannt, kann man von der Übersetzung keine Wunder erwarten.

Fortschritte erzielte die Spracherkennung ausgerechnet mit einer Technik, die in den achtziger Jahren schon einmal sehr populär war: Die sogenannten neuronalen Netzwerke sollen im Computer Strukturen simulieren, die dem Gehirn ähneln. Sie empfangen auf der einen Seite Rohdaten (Tonsignale etwa), die an mehrere Schichten von Neuronen weitergegeben werden, bis die letzte Schicht dann das Resultat ausgibt (etwa ein Transkript). Verarbeitet werden die Daten nicht aufgrund eines ausdrücklichen Programms. Das neuronale Netz lernt stattdessen anhand von Beispielen, die man ihm gibt, und passt daraufhin seine inneren "Nervenbahnen" an. Hat es genug trainiert, dann kann es – so die Hoffnung – selber Wörter erkennen.

Praktisch scheiterten die Systeme lange an der schwachbrüstigen Technik. Doch inzwischen existieren Chips, die mit 1.000 Prozessoren wirklich große Netze mit vielen Zwischenschichten simulieren können (Deep Neural Networks). Microsoft gelang es, mit so einem System die Zahl falsch erkannter Wörter bei spontan Gesprochenem von 30 auf 20 Prozent zu senken. Und anders als Diktiersysteme für den Computer müssen neuronale Netze nicht auf einzelne Sprecher trainiert werden.

Diesen Fortschritt erkennt auch Alex Waibel vom Karlsruher Institut für Technologie (KIT) an. Der 58-Jährige war der Kopf hinter der App Jibbigo. Schon 1991 präsentierte Waibels Team das erste deutschsprachige Übersetzungsprogramm für gesprochene Sprache, das allerdings mit einem Wortschatz von 500 Wörtern nur ein Gesprächsthema kannte: die Reservierung von Hotelzimmern. "Um allgemeine Gespräche zu übersetzen, brauchen Sie etwa 40.000 Wörter", sagt Waibel.

Besonders faszinierend findet er, dass die Netze offenbar sehr ähnlich lernen wie ein Mensch. Obwohl man ihnen nur den Input und den gewünschten Output präsentiert, spezialisieren sich einzelne Neuronen bald auf bestimmte Details, etwa die kleinsten Lauteinheiten (Phoneme).

Funktioniert mit der Spracherkennung der erste Schritt, kommt dabei eine Folge von Wörtern heraus, ohne Punkt und Komma, Groß- und Kleinschreibung, inklusive Ähs und Ähms. Als Input für das Übersetzungsmodul taugt das noch nicht. Es ist ein Säuberungsschritt notwendig, und in dieses Reinemachen hat Microsoft besonders viel Energie gesteckt. Die Forscher dort haben ihre Systeme auf informelle Sprache getrimmt, wie sie vor allem in Sozialen Netzwerken gesprochen wird. Sie eliminieren Wiederholungen und Fehlstarts von Sätzen, fügen Groß- und Kleinschreibung ein sowie, noch wichtiger, Satzzeichen. So werden aus unstrukturierten Wortflüssen Sätze – und der Satz ist die Grundeinheit der nachfolgenden Übersetzung.