Seit 1984 haben sich die Schnittstellen, mit denen wir Computer bedienen, nicht mehr verändert: Tastatur, Maus oder Trackpad erledigen die Eingabe; Daten werden in verschiebbaren und in der Größe veränderbaren Fenstern dargestellt und in hierarchischen Dateisystemen gespeichert, die "Dokumente" verwalten.

Zwar gibt es seit Jahren unter anderem die Möglichkeit, Computer mit einem Stift zu steuern oder auch mit der eigenen Stimme. So versteht Windows 7 seinen Nutzer vergleichsweise problemlos und kann komplett per Wort dirigiert werden. Durchgesetzt aber hat sich diese Technik bislang nicht so richtig. Denn der Nutzer muss zuvor wie eben bei Windows die korrekten Kommandos lernen und beispielsweise Dinge sagen wie: "Bildlauf nach oben" oder "auf Papierkorb doppelklicken". Das ist nicht viel anders, als mit der Maus auf das Symbol zu drücken.

Anders die Software Siri, die nun auf dem aktuellen iPhone läuft. Sie scheint uns tatsächlich zu verstehen. Überhaupt hat Apple mit der Einführung des iPhones und des iPads grundlegend verändert, wie wir mit einem Computer interagieren. Nicht, dass der Konzern den berührungsempfindlichen Bildschirm oder die Sprachsteuerung erfunden hätte. Aber dank der Neuerungen nehmen wir die meisten Geräte gar nicht mehr als Computer wahr.

Ein typischer Dialog mit Siri. © Felix Schwenzel

Zwei Beispiele: Mit dem iPhone aufgenommene Fotos müssen nicht aktiv irgendwo gespeichert oder benannt werden. Sie landen von selbst in einer App, die "Fotos" heißt und lassen sich mit zwei Handgriffen per E-Mail verschicken oder zu Facebook schieben. Keine Datei muss gesucht, hochgeladen und angehängt werden, das erledigt das System von selbst. Auch Notizen können einfach in eine App namens "Notizen" geschrieben werden. App öffnen, schreiben, schließen. Das Speichern erledigt das System.

Geringe Kompexität

Der Trick ist die Vereinfachung der Oberfläche. Das Prinzip ist mittlerweile zu einem Standard der Computerindustrie geworden und das nicht nur bei mobilen Geräten. So wird die kommende Windowsversion viele dieser Konzepte anbieten: geringe Komplexität, intuitive Gestensteuerung, vereinfachtes und berührungsfreundliches Design.

Apple allerdings scheint schon wieder einen Schritt weiter zu sein. Nachdem das Unternehmen die Gestensteuerung eingeführt und damit eine ganze Industrie inspiriert hat, nimmt es sich nun die Sprache vor. Die Technologie, mit der sich das neue iPhone verbal und wenn man möchte auch ohne Augenkontakt steuern lässt, heißt Siri. Apple hat sie von Siri Inc. gekauft, einer Firma, die das Konzept seit dem Jahr 2007 entwickelt hat.

Sprachsteuerung ist nichts Neues. Eine Spracherkennung aber, die erstens funktioniert und zweitens das Gesagte interpretiert und zumindest ansatzweise die Intention erkennt ist, ist durchaus eine Neuerung. Anders als bei einer klassischen Handy-Sprachsteuerung kann man Siri beispielsweise in umgangssprachlichem Ton sagen, es solle die Schwester auf der Arbeit anrufen. ("Ruf meine Schwester auffa Arbeit an", funktioniert tatsächlich.)

Siri fragt und lernt

Kennt Siri die Schwester nicht, fragt es nach, wer die Schwester sei und merkt sich die Information fortan. Sind Privat-, Handy- und Arbeitstelefonnummern sorgfältig im Adressbuch gepflegt, fragt Siri nicht mehr nach. Das Programm erfasst den Kontext und wählt die richtige Nummer.

In Deutschland kann Siri auf diese Weise SMS-Nachrichten oder E-Mails verschicken oder vorlesen, Termine, Weckzeiten und Erinnerungen einrichten oder ändern, Fragen zum Wetter oder zum Sonnenauf- und -untergang beantworten, Aktienkurse anzeigen oder Musik abspielen.

Auf technischer Ebene laufen bei der Kommunikation mit Siri vier Prozesse ab. Der erste  ist die eigentliche Spracherkennung, die Apple von der Firma Nuance lizensiert hat. Nuance hat Erfahrung in dem Gebiet und bietet beispielsweise auch das bekannte Diktierprogramm Dragon Dictate an.

Um Siri könnte ein ganzes Daten-Ökosystem wachsen

Diese Spracherkennung funktioniert mit deutschen Sätzen gut und in der Regel fast fehlerfrei. Kommen allerdings Fremdwörter oder englischsprachige Namen im Adressbuch oder in der Musiksammlung vor, muss die Software meist passen. Auf die Ansage "spiele Amy Winehouse", sagt Siri, dass sie "Amy Weinhaus" leider nicht finden könne. Wenn man die Namen amerikanischer Interpreten deutsch ausspricht, trifft Siri manchmal den Richtigen. Natürlich kann, wer die Geduld aufbringt, dem System Neues beibringen. Dann versteht es im Zweifel immer noch "Amy Weinhaus", weiß aber, dass es Amy Winehouse abspielen soll.

Der zweite Schritt, die Intentionserkennung, ist das wohl größte Problem der Sprachsteuerung – und funktioniert hier sensationell gut. Das Praktische, aber gleichzeitig auch leicht Erschreckende ist, dass Siri alle möglichen Kontext-Informationen verarbeitet, die das iPhone liefert. Gleichzeitig lernt das System aus den Handlungen seines Nutzers.

Mit anderen Worten, Siri weiß alles über einen. Siri weiß, wo man sich in Zeit und Raum befindet, in welchen Verwandtschaftsverhältnissen man lebt, welche Vorlieben man hat. Siri läuft dabei nicht etwa auf dem iPhone, sondern auf den Servern von Apple. Ohne Internetverbindung funktioniert die Spracherkennung nicht. Und werden die eigenen Vorlieben, beispielsweise die Musikbibliothek und eben die Verwandtschaftsverhältnisse nicht auf Apple-Servern gespeichert, kann das Programm auch nicht erahnen, was die Worte bedeuten sollen.

Noch gibt es zu wenig Datenquellen

Der dritte Schritt ist die Auswahl der besten Antwortmöglichkeit. Dabei ist das iPhone 4S eher nicht so gut. Denn die Datenquellen, die Siri zur Verfügung stehen, sind überschaubar. Die Firma Siri Inc. hatte vor dem Kauf durch Apple eine Version im App-Store veröffentlicht, die viel mehr Schnittstellen und Einsatzzwecke bot. Etwa die Möglichkeit, einen Tisch im Restaurant über den Webservice Open Table zu reservieren oder Tickets über Ticket Master oder über MovieTickets zu bestellen.

In der Nutzung solcher strukturierter Datenquellen steckt das eigentliche Potenzial von Siri. Alle Dienste, die über eine Programmierschnittstelle (API) verfügen, können so angezapft werden, ob sie nun Daten aus dem Web bereitstellen oder Inhalte, die in Form einer App auf dem Gerät liegen. Die Macher nannten Siri in ihrem Marketingsprech deshalb auch eine "Tumaschine" (do engine), im Gegensatz zu einer Suchmaschine (search engine).

Antwort Siris auf eine vergebliche Suchanfrage. © Felix Schwenzel

Eine Suchmaschine ist Siri gleichwohl, werden in einem vierten Schritt doch die gefundenen Ergebnisse nach den persönlichen Präferenzen des Nutzers gefiltert, sortiert und möglichst hübsch präsentiert.

Siri ist damit bereits jetzt, trotz seiner eingeschränkten Fähigkeiten, faszinierend. Sollte das Unternehmen die Siri-Schnittstellen für Drittentwickler öffnen, könnte um die Sprach- und Intentionserkennung von Siri gar ein ganzes Ökosystem entstehen.

So etwas hat der Konzern schon einmal getan und damit großen Erfolg gehabt. Dank Veröffentlichung der iOS-Entwicklungsumgebung kann Jedermann Programme für iPhone oder iPad schreiben. Wodurch die Zahl der Apps rasch wuchs und damit auch die Einsatzmöglichkeiten der sie nutzenden Geräte. Auch das ein Modell, das längst andere Unternehmen übernommen und ausgebaut haben.

Mit Siri nun hat der Konzern ein weiteres Mal die Bedienung eines komplexen Systems radikal vereinfacht. Denn nicht die gut funktionierende Spracherkennung ist die wahre Innovation Siris, sondern die Möglichkeit, komplexe Datenquellen zu nutzen.

Ob Siri wirklich das nächste große Ding wird, wie die Entwickler im Interview mit Robert Scoble sagten, muss sich erst noch zeigen. Das Potenzial dazu hat das Programm zumindest.