Höre und glaube

Es sind nur drei Worte: "Hat Deutschland gewonnen?" Did Germany win? Der Mann, der sie in sein Smartphone spricht, sitzt in einem Konferenzraum in Kalifornien. Weit weg vom Fußballfieber im Old Europe. Die weibliche Stimme aus seinem Smartphone antwortet umgehend und korrekt: "Ja, Deutschland hat gegen Italien nach Elfmeterschießen 6:5 gewonnen." Wie konnte sie wissen, dass die Europameisterschaft in Frankreich gemeint war? Der Mann im Silicon Valley hätte ja auch von einem anderen sportlichen oder gar einem historischen Ereignis reden können.

Wir sind zum Gespräch mit Google-Manager Ben Gomes verabredet, Vizepräsident des Unternehmens und zuständig für die Weiterentwicklung der Suchmaschine. Aber ist Google überhaupt noch eine "Such"-Maschine? Mit dem Scrollen durch endlose Linklisten hat die heutige Nutzung mitunter kaum noch etwas gemein. Wer mündlich googelt, erhält mündliche Repliken, wer tippt, bekommt übersichtlich gestaltete Infoseiten angezeigt. Antworten statt Links. Selten genug muss man noch etwas anklicken und den Google-Kosmos verlassen.

Die schrittweisen Veränderungen an der Oberfläche gehen mit einem grundlegenden Strategiewandel im Unternehmen einher. Auf der jährlichen Entwicklerkonferenz I/O verkündete Google-CEO Sundar Pichai vor Kurzem: "Es reicht nicht, dass wir den Nutzern einfach nur Links geben. Wir müssen ihnen helfen, Dinge in der echten Welt erledigt zu bekommen." Google will nicht mehr passive Suchmaschine sein, sondern ein willfähriger Helfer für jede Lebenslage – der selbstverständlich auch sprechen kann. "Wir wollen eine natürliche Konversation ermöglichen", sagt Gomes.

Das Ziel: Die Nutzer sollen spontan und situativ jede erdenkliche Frage und Aufgabe per Spracheingabe an die sie umgebenden Geräte delegieren können. Intelligente Integration könnte man das nennen: Die alte Suchmaschine verschwindet dezent im Hintergrund, bleibt dort aber präsent. Ein beschwingtes "Ok Google" in die Luft gesprochen genügt, um den Dialog zum Beispiel im neuen Google-Messenger Allo oder mit der Google-Home-Lautsprecherstation zu beginnen. Beide sollen Ende 2016 auf den Markt kommen. Nutzer können sich dann – so suggerieren es Googles Werbespots – Restaurants oder Kinofilme vorschlagen lassen, Termine verwalten, Nachrichten verschicken oder thematische Dossiers zusammenstellen lassen.

Das erhöht einerseits den Komfort, wirft aber andererseits viele Fragen auf. Zunächst die nach dem Datenschutz. Hört Google in Zukunft immer überall mit – um leise lauschend noch mehr über den jeweiligen Kontext zu erfahren, in dem ein Nutzer sich bewegt? Gomes verneint. In Allo werde man die Such- und Empfehlungsfunktion erst aktivieren müssen, bevor Google sich in Chats einmischt. Und die Verbindung von Google Home zu Googles Servern ruht solange, bis die Worte "Ok Google" fallen. Sie werden nur lokal, also auf dem Gerät registriert. Ab dann sind Mikrofon und Lautsprecher allerdings aktiv und mit dem Suchmaschinen-Mutterschiff in Kontakt. Erst wenn die Stimmen im Raum verstummen, schaltet Google Home wieder auf Schlafmodus um. "Wir machen transparent, welche Informationen die Nutzer mit Google teilen", sagt Gomes. Auch im Fall der Sprachsteuerung werde es möglich sein, nachträglich Suchverläufe zu bereinigen oder ganz zu löschen. So wie das jetzt auch mit geschriebenen Suchanfragen geht.

Wo bleiben die Quellenangaben der Antwortmaschine?

Google-Vizepräsident Ben Gomes © ERIC PIERMONT/AFP/Getty Images

Vorausgesetzt, die Masse der Nutzer macht überhaupt Gebrauch von der Sprachbedienung: Reduziert die sprechende Such- beziehungsweise Antwortmaschine nicht die Komplexität von Wissen und Welt? Oder anders gefragt: Müssen die Nutzer künftig einfach glauben, was Google ihnen als kurze mündliche Antwort liefert? Vor allem, wenn ein kritischer Blick auf Quellenangaben oder weiterführende Linklisten – beispielsweise bei der Sprachausgabe im Auto oder bei Google Home – kaum noch möglich ist? Und wie können Nutzer dann noch zwischen neutralen Informationen und bezahlten Empfehlungen unterscheiden?

Die Sprachausgabe funktioniert ähnlich wie der mit "Auf gut Glück!" beschriftete Button der heutigen Suchmaschine: Wer ihn benutzt, landet nach der Eingabe seiner Suchbegriffe direkt auf dem obersten Ergebnis der Google-Suche, ohne Umweg über die Linkliste. Ob diese Liste etwas enthält, das möglicherweise besser zur konkreten Frage gepasst hätte, sieht der Nutzer nicht. Im Fall der Sprachausgabe bekommt er eine Antwort, ohne die Quelle oder alternative Quellen zu kennen. Die sieht er nur, wenn er noch mal auf dem jeweiligen Bildschirm nachschaut. Dort listet Google weiterhin Links auf.

Und sollte sich die verbale Auf-gut-Glück-Interaktion durchsetzen, muss Google auch ökonomisch umbauen. Denn wie will das Unternehmen, das bislang sehr gewinnbringend Werbeflächen in Linklisten versteigert hat, sein Geld verdienen, wenn Textanzeigen nebensächlich werden, weil die Suche über den Browser höchstens noch für akademische Tiefenrecherchen benötigt wird?

Google hat anderen Webseiten Traffic gebracht, das war lange das zentrale Geschäftsmodell. Im gerade von Microsoft-CEO Satya Nadella ausgerufenen Zeitalter der conversation as an interface könnte diese Säule bröckeln. Wo tun sich dann neue Märkte auf? Ben Gomes weicht der Frage nach Monetarisierungsstrategien für den Sprachassistenten aus: "Wir wollen einen Mehrwert für den Nutzer schaffen, darum geht es uns in erster Linie. Andere Formen von Mehrwert werden folgen. Wir stehen ohnehin erst ganz am Anfang." 

Jede zweite Suche über Smartphones, davon 20 Prozent gesprochen

Dass über Vermarktung noch nicht nachgedacht wird, scheint wenig glaubwürdig. Immerhin sind sich in Silicon Valley derzeit alle einig, dass die mündliche Interaktion die Kommunikationsform der Zukunft ist. Alle setzen auf Chatbots, neben Google und Microsoft auch Facebook und Apple. Die gelungene Simulation einer menschlichen Unterhaltung wird den Ausschlag geben, ob Kunden sich kurzfristig zufriedenstellen und langfristig binden lassen.

Mittlerweile verarbeitet Google vier Milliarden Suchanfragen täglich. Davon kommen nach Aussage von Google rund 50 Prozent von Smartphones. Von diesen Anfragen werden wiederum 20 Prozent per Spracheingabe ausgelöst. Und das ist erst der Anfang. "Die Zuwächse bei der Spracheingabe sind riesig", sagt Gomes. 

Googles kulturelles Gedächtnis in einer Datenbank

Bis vor Kurzem war die Spracheingabe eine eher frustrierende Angelegenheit, unausgereift und unzuverlässig. Aber die Forschung macht enorme Fortschritte. Und Google ist offenbar zuversichtlich, sich an die Spitze dieser Entwicklung setzen zu können, auch wenn sich Gomes jeden Seitenhieb auf die Konkurrenz verkneift. Lieber erklärt er, welche Grundsteine in den letzten 15 Jahren gelegt wurden, die dem Unternehmen heute helfen. So weiß Google aus langjähriger Erfahrung, wie seine Nutzer ticken. "Es fing damit an, dass wir ihre Tippfehler korrigiert haben", sagt Gomes. "Dann haben wir gelernt, dass sie möglicherweise das eine schreiben, aber etwas anderes meinen und haben die Wörter für sie übersetzt." Nötig war außerdem eine deutliche Verbesserung bei der Spracherkennung. "Auch da ist viel passiert", sagt Gomes und führt sich selbst als Beweis an. Das Englisch des Managers ist von einem leichten indischen Akzent durchweht. Vor wenigen Jahren noch wäre Sprachsteuerung mit diesem Akzent unmöglich gewesen. Heute kann Google sich auch mit Nicht-Muttersprachlern unterhalten.

Und dennoch sind das alles nur Grundlagen und Vorarbeiten. Um wirklich mühelos kommunizieren zu können, ist neben einer gemeinsamen Sprache auch ein gemeinsamer Erfahrungshorizont und Referenzrahmen nötig. Damit man dem Gegenüber nicht erst erklären muss, dass Berlin eine Stadt ist, dass der Regierungschef in Deutschland "Bundeskanzler" oder "Bundeskanzlerin" heißt, dass Menschen Wesen sind, die irgendwo wohnen und Berufe und Verwandte haben. Was banal klingt, ist für Gomes der eigentliche Schritt in Richtung künstlicher Intelligenz.

Der Google Knowledge Graph als Modell der Welt

Google hat dazu einen riesigen Berg Allgemeinwissen angehäuft. Gelungen ist das mit der seit 2012 sukzessive ausgebauten Datenbank Google Knowledge Graph, die für den Nutzer eher wie eine bebilderte Karteikarte daherkommt. Informationen zu Städten, Ländern, Filmen, Prominenten und so weiter sind hier hinterlegt und milliardenfach untereinander verknüpft.

Was ursprünglich dazu gedacht war, den Faktenhunger der Nutzer mit ansprechend aufbereiteten Wissenshäppchen zu stillen, bildet nun das Rückgrat für den nächsten technologischen Wandel. "Der Google Knowledge Graph ist wie ein Modell der Welt", sagt Gomes. Das kulturelle Gedächtnis der Suchmaschine. Hier bedient sich der Sprachassistent – auch bei der Frage, welcher Sieg im Sommer 2016 wohl gemeint sein kann, wenn von einem europäischen Land die Rede ist.

Bis die Nutzer mit ihren persönlichen Sprachassistenten allerdings so philosophisch-romantische Diskurse führen werden, wie es sich Regisseur und Autor Spike Jonze 2014 seinem Science-Fiction-Film Her vorgestellt hat, wird es noch eine Weile dauern. In diesem Jahr feiert Google es bereits als großen Erfolg, dass der Nutzer bei zwei aufeinanderfolgenden Fragen das Thema der ersten nicht noch mal explizit wiederholen muss. Die Suchmaschine kann sich neuerdings merken, wovon vor wenigen Sekunden die Rede war. Wer also nach erst Deutschlands Sieg fragt und dann noch ein "und Portugal?" hinterherschiebt, der bekommt auch darauf eine korrekte Antwort.