SpracherkennungVerständnisvolle Geräte

Die Maschinen werden menschlicher. Autos, Fernseher und Kaffeemaschinen werden demnächst verstehen, was wir ihnen sagen, und unsere Befehle ausführen. Das macht das Leben einfacher – und birgt womöglich Gefahren. von Ulf Schönert

Schlagfertig ist die Dame. Den Hamburger Gruß "Moin, Moin" kontert Siri mit dem Hinweis: "Hallo. Du weißt, dass es bereits 19.32 Uhr ist, nicht wahr?" Und auch sonst ist die virtuelle Assistentin, die auf allen neuen iPhones installiert ist , nicht auf den Mund gefallen. "Ich, Siri, wurde von Apple in Kalifornien entwickelt", stellt sie sich beim ersten Einschalten vor. "Was machst du so?", ist man geneigt zu fragen, und tut man es, antwortet die Telefonstimme: "Was ich mache? Ich spreche mit dir." Nie ließ ein technisches Gerät seinen Besitzer so dämlich aussehen – und sich selbst damit umso schlauer.

Seit ein paar Monaten ist Siri auf dem Markt und tut schon auf Millionen iPhones ihren Dienst. Sie ist eine Sekretärin, die Diktate aufnimmt, Termine verwaltet, Musik anmacht und E-Mails raussucht. Aber auch eine persönliche Assistentin für den Alltag. "Brauche ich heute einen Regenschirm?", kann man sie fragen. "Nein, heute scheint den ganzen Tag die Sonne", antwortet Siri dann zum Beispiel. Und sorgt mit solch ganz alltäglichen Hilfsdiensten dafür, dass sich bei Handynutzern eine neue Bedienweise etabliert: Die Leute beginnen, mit ihren elektronischen Geräten zu reden.

Anzeige

Bewirkt hat dies der US-Spracherkennungsspezialist Nuance . Seine Technologie steckt hinter Siris Sprachvermögen. Und auch Hunderte andere elektronische Geräte, die entweder schon sprechen können oder es gerade lernen, greifen auf die Spracherkennung von Nuance zurück: Navis, PCs, Autos. Obendrein gehören die auf fast jedem Handy installierten Eingabemethoden T9 und Swype zu Nuance. So wurde das Unternehmen mit Hauptsitz in Massachusetts vom Nischenprodukthersteller zum Milliardenkonzern mit weltweit 7.000 Mitarbeitern, die mehr als 70 Sprachen betreuen.

Die Deutschland-Niederlassung liegt in einem Gewerbegebiet außerhalb von Aachen . Wer zu Besuch kommt und einen Kaffee trinken möchte, bestellt ihn nicht bei seinem Gastgeber, sondern direkt bei der Kaffeemaschine, die auf dem Empfangstresen steht. Der Befehl "Kaffee schwarz" wird ebenso fehlerfrei und prompt umgesetzt wie "Latte Macchiato".

Eine weitere Anwendung der Technologie führt Martin Held in seinem Büro vor. "Durchsuche Wikipedia nach ›Spracherkennung‹", sagt Held, der bei Nuance für die Diktiersoftware Dragon Naturally Speaking zuständig ist. Der Computer gehorcht. Ein Browser öffnet sich, darin die deutschsprachige Wikipedia-Seite. Wie von Zauberhand ist das Suchwort "Spracherkennung" schon eingegeben, und der Lexikonartikel erscheint. "Mit unserer Software können Sie inzwischen jeden Computer komplett freihändig steuern", sagt Held. Konzipiert wurde Dragon Naturally Speaking als Diktierhilfe für Vielschreiber und Büroangestellte. Einem Millionenpublikum ist das Programm durch den Abkömmling Dragon Dictation bekannt, eine kostenlose App, mit der man seinem Handytexte diktieren kann und das inzwischen auf zahllosen iPhones läuft.

Sogar das klassische Terrain der Fernbedienung erobert die Sprachtechnologie – die Fernsehsteuerung. Auf Englisch funktioniert es schon: "Switch to CNN" , sagt Raimund Schmald, bei Nuance Experte für den Einsatz von Sprachtechnologie im Wohnzimmer. Der Fernseher schaltet auf CNN um. Aber hat das Sinn? Ist der Druck auf die Fernbedienung nicht schneller und praktischer? Das gibt Schmald gern zu. Um dann sogleich zu zeigen, wofür die Technologie wirklich gut ist: etwa um einen Festplattenrekorder zu programmieren. Anstatt mit den Pfeiltasten der Fernbedienung mühsam Buchstaben auf einer Bildschirmtastatur auszuwählen, muss Schmald nur noch einen Satz laut sagen: "Search movies with Cameron Diaz" – und schon erscheint eine entsprechende Trefferliste, zusammengestellt aus dem aktuellen Fernsehprogramm. Er muss nur noch einen Film auswählen, schon ist der Timer programmiert.

Vieles spricht dafür, dass 2012 das Jahr des Durchbruchs für die Sprachbedienung wird. Gerade hat LG eine TV-Fernbedienung vorgestellt , die mit einem Mikrofon ausgestattet ist, in das man Suchbegriffe sprechen kann. Die Telekom arbeitet an einer Sprachsteuerung für ihr "Entertain"-System. Samsung und Lenovo stellten auf der Consumer Electronics Show in Las Vegas Fernseher vor, die sich mit Handzeichen und Sprachbefehlen bedienen lassen , Intel arbeitet an entsprechenden Notebooks . "Das Thema Spracherkennung hat eine große Zukunft", glaubt Alexander Hengesbach vom Marktforschungsunternehmen Sirvaluse, das auf die Bedienbarkeit von technischen Geräten spezialisiert ist. "Viele Abläufe lassen sich so radikal vereinfachen. Darin steckt enormes Potenzial."

Ganz neu ist das nicht. Vielen Handys und Freisprechanlagen kann man schon seit Jahren sagen, wen sie anrufen sollen – was sie dann mehr oder weniger zuverlässig tun. In Call-Centern, Behörden, Redaktionen, Universitäten und Krankenhäusern kommt Spracherkennungstechnologie längst zum Einsatz. Die ARD untertitelt manche Fußballspiele mit Kommentaren für Hörgeschädigte: Die eingeblendeten Texte werden nicht eingetippt, sondern eingesprochen. Im Hamburger Universitätsklinikum Eppendorf (UKE) diktieren Ärzte ihre Berichte nicht mehr einer Schreibkraft, sondern direkt dem PC. "Das ist eine enorme Arbeitserleichterung", sagt Peter Gocke, IT-Verantwortlicher am UKE. "Und die Fehlerquote ist deutlich geringer als beim Selbertippen."

Die Technologie hinter der Sprachsteuerung von Siri gebe es zwar schon länger und habe "schon vorher gut funktioniert", sagt Hermann Ney , Informatikprofessor und Experte für Sprachtechnologie an der RWTH Aachen. Neu sei aber die Idee, die Spracherkennung zu personalisieren, ihr einen Namen zu geben und damit dem ganzen Gerät so etwas wie einen Charakter zu verleihen. Das, sagt Ney, sei "ein ziemlich genialer Schachzug" von Apple. Ein Name, eine schöne Stimme, persönliche Ansprache, Humor – so hatte das zuvor noch niemand versucht. Das verhilft der Technologie nun zum Durchbruch.

Und so werde es in Zukunft ganz normal sein, mit Maschinen zu sprechen, sagt Sherry Turkle , Professorin am Massachusetts Institute of Technology (MIT). Die Soziologin glaubt, dass wir die Geräte dadurch als "noch lebensechter" empfinden werden. "Sich bewusst zu machen, dass sie keine Gefühle haben, dass sie nicht leben, wird immer schwieriger", sagt Turkle.

Schon kommen Stimmen auf, die diese Entwicklung skeptisch sehen und sogar für schädlich halten. "Wenn wir Maschinen personifizieren und mit ihnen quasi wie mit Menschen agieren, werden unsere zwischenmenschlichen Fähigkeiten verkümmern", warnte etwa der amerikanische Psychiater und Wissenschaftsautor Keith Ablow kürzlich in seiner Onlinekolumne beim US-Sender Fox News. "Es wird uns dazu verleiten, andere Menschen wie Maschinen zu behandeln. Letztendlich nimmt es uns die Fähigkeit, Verständnis füreinander zu empfinden." Würden wir erst einmal beginnen, mit nicht existenten Personen zu reden, dann bestünde die Gefahr, den Gedanken zuzulassen, dass "auch wirkliche Menschen ein nicht existentes Wesen" hätten.

Diese Befürchtung teilt Rolf Pfeifer nicht. Er ist Direktor des Labors für Künstliche Intelligenz an der Universität Zürich und sagt: "Wir werden mit Maschinen niemals sprechen wie mit Menschen", sagt er. Sprache sei nur ein Aspekt der Kommunikation, neben Gesichtsausdruck, Körperhaltung, Gestik.

Dass Geräte, die sprechen, zumindest anders wahrgenommen werden als solche, die man über Menüs bedient, meint Jochen Steigner. Der Computerlinguist war Wissenschaftler am Deutschen Forschungszentrum für Künstliche Intelligenz (DFKI) und hat mit Kollegen von dort die Firma SemVox gegründet. Ihr Produkt: ein "Talking Terminal" – ein dialogfähiger Informationskiosk, der auf Messen und an Verkaufsständen zum Einsatz kommen soll. Potenzielle Gesprächspartner erkennt das Gerät über eine eingebaute Kamera und lässt daraufhin eine hübsche, seriös wirkende Blondine auf dem Bildschirm fragen: "Kann ich Ihnen helfen?" Schlechte Laune hat die virtuelle Servicekraft nie, zuweilen zwinkert sie keck. "Das ist eine sehr natürliche Art der Kommunikation", sagt Steigner und spricht von einer "anderen Servicequalität". Mangelhafte und schlecht programmierte Spracherkennungssysteme früherer Generationen hätten jahrelang die Entwicklung der Technologie gehemmt, so Steigner: "Viele verbinden sie mit nervigen Auswahlmenüs bei Telefon-Hotlines." Seit Siri aber gelte die Technologie nicht mehr als Ärgernis, sondern als cool.

Davon wollen auch die Konstrukteure der Spielkonsole Xbox von Microsoft profitieren. Seit Kurzem kann die Xbox-Steuerung Kinect Gesten erkennen – nun haben sie ihr zudem eine Sprachsteuerung verpasst. So kann man die Xbox vom Sofa aus ohne Controller bedienen. Ruft man "Xbox: Spiel spielen", startet das eingelegte Videospiel. Ruft man "Xbox: Einstellungen", gelangt man ins entsprechende Menü. "Xbox: Stop" hält die DVD an, die man gerade schaut.

Anders als ein Smartphone, das aus unmittelbarer Nähe angesprochen wird, muss die Xbox auch Eingaben verstehen, die aus mehreren Metern Entfernung abgegeben werden. Dazu müssten Umgebungsgeräusche herausgefiltert, Echos eingerechnet, die Position und die Kopfhaltung des Sprechers berücksichtigt, Wichtiges von Unwichtigem getrennt werden, sagt Kudo Tsunoda, Kreativdirektor von Xbox Kinect. "Wir mussten die Anwendung von Grund auf neu schreiben, damit sie unter den spezifischen Bedingungen des Wohnzimmers funktioniert." In den USA läuft das System schon seit einiger Zeit. Der Deutschland-Start musste mehrmals verschoben werden. Liegt das an der Sprache selbst? Ist Deutsch eine besonders schwere Sprache? Schließlich berichten Apple-Nutzer, dass die englische Siri-Version der deutschen haushoch überlegen sei.

"Prinzipiell ist jede Sprache gleich gut geeignet für die elektronische Erkennung", sagt Dietrich Klakow , Professor an der Universität Saarbrücken und Spracherkennungsforscher. "Wenn eine Sprache besser erkannt wird als andere, dann liegt das im Wesentlichen am Training." Man kann ein Spracherkennungssystem nicht einfach so programmieren wie ein Computerspiel oder einen Druckertreiber. Es muss seine Fähigkeiten erst mühevoll erlernen – fast wie ein Mensch. "Die Kunst ist, an gute Daten zu kommen und sie optimal in den Lernprozess einzubauen", sagt Joachim Stegmann, Leiter der Abteilung Future Telecommunication in den Telekom Innovation Laboratories. Um Spracherkenner zu schulen, brauche man viele Aufzeichnungen mit gesprochenem Text, möglichst variantenreich, am besten zusammen mit einer genauen Abschrift. Schwierig sei es, an Aufzeichnungen von Alltagssprache zu kommen, um möglichst viele Dialekte, Sprachfehler, Nuschel- und Fistelstimmen erfassen zu können. "Sie brauchen Kinder, Männer, Frauen, Alte, alle Regionen", sagt Stegmann. Ergänzen ließen sich diese Sprachproben um Daten aus dem Internet, zum Beispiel Protokolle von Bundestagsreden, vorgelesene Zeitungsberichte, Manuskripte von Radiosendungen, je mehr, desto besser.

Das Problem bei der elektronischen Spracherkennung ist, dass niemand einen Begriff in jeder Situation immer ganz genau gleich ausspricht. Mal ist er müde, mal hektisch, mal laut, mal leise, mal konzentriert, mal betrunken, mal sauer, mal verliebt, mal erkältet. Deshalb ist es für eine Software sehr schwierig, Wörter durch Suchen deckungsgleicher Tonfolgen zu erkennen. "Spracherkennung funktioniert eben über Statistik", sagt Stegmann.

Am Anfang steht dabei die Umwandlung des gesprochenen Satzes in eine Klangdatei, die in kleine Abschnitte zerhackt und nach bekannten Lauten untersucht wird. Weil längst nicht alle Laute erkannt werden, ist ein weiterer Schritt notwendig. Mit der sogenannten Hidden-Markov-Methode rechnet der Spracherkenner aus, welcher Laut einem anderen wahrscheinlich folgt und welcher wiederum danach kommen könnte. So entsteht eine Liste von möglichen Wörtern, mit denen in einem zweiten Durchlauf das passiert, was vorher mit den Buchstaben geschah: Der Rechner analysiert die Wahrscheinlichkeit, mit der ein bestimmtes Wort einem anderen folgt – nach "Ich gehe nach..." kommt eher "Hause" als "Brause" oder "Pause". Das aber kann der Computer nur wissen, wenn er sehr viele gesprochene Sätze kennt und weiß, wie oft und in welchem Zusammenhang die Wörter vorkommen.

Eine solche Rechenaufgabe übersteigt die Prozessorfähigkeiten eines hosentaschenkleinen Handys. Lösbar ist sie nur durch das Cloud-Computing . Darunter versteht man das Auslagern schwieriger Rechenoperationen an Großcomputer. Das Handy nimmt den Sprachbefehl auf, wandelt ihn in eine Tondatei um, schickt diese übers Internet ans Rechenzentrum und lässt sie dort von einem Riesencomputer analysieren. Anschließend kommt das Ergebnis übers Netz wieder ans Handy zurück. Die immense Rechenpower, die riesigen Datenbanken, die per Cloud-Computing vorgehalten werden, ist das eigentliche Geheimnis hinter dem Erfolg der neuen Spracherkenner im Gefolge von Siri.

Was beim Smartphone und im Wohnzimmer praktisch ist, hat im Auto noch mehr Sinn – schon aus Sicherheitsgründen. Am Steuer einen Touchscreen zu bedienen, um eine MP3-Datei auszuwählen, ist nicht nur kompliziert, sondern auch gefährlich. Mit Spracherkennung ist auch das kein Problem mehr. "Spiel Coldplay" – solche einfachen Anweisungen verstehen manche Autos schon heute. Auch Eingaben ins Navigationsgerät können bei Geräten der Oberklasse bereits jetzt per Sprachbefehl erfolgen .

Bei Nuance arbeitet man bereits an der nächsten Generation der Auto-Elektronik, bei der man per Spracheingabe auch komplizierte Texte schreiben, soziale Netzwerke nutzen und Suchmaschinen befragen kann, ohne seine Aufmerksamkeit von der Fahrbahn abwenden zu müssen. "Die Leute kennen Siri oder Dragon Dictation und erwarten nun auch von anderen Geräten, dass sie sie verstehen", sagt Fatima Vital, bei Nuance Fachfrau für Spracherkennung in Autos. In ihrer Hand wiegt sie einen großen, silbernen Knopf. Er soll später einmal in ein Auto eingebaut werden, ein Druck auf ihn signalisiert dem Fahrzeug: Hör zu!

Fatima Vital setzt ein Headset auf, das sie nur zu Demonstrationszwecken trägt – später, im echten Auto, wird es nicht mehr nötig sein –, und diktiert eine E-Mail. Der erkannte Text erscheint fehlerlos in extrem großen Buchstaben auf einem ebenfalls großen Display, das einmal ins Armaturenbrett integriert sein soll. Wenn sie mit einer Passage nicht zufrieden ist und beispielweise sagt: "Replace ›message‹ by ›documents‹!" , dann wird der Text prompt entsprechend korrigiert. Künftig, meint Vital, wird man im Auto auch das eingebaute Handbuch fragen können: "Auf welcher Seite befindet sich noch mal der Tankdeckel?" Und bekommt die Antwort gesagt. Oder man fragt: "Wo finde ich in der Nähe die billigste Tankstelle?" Und schon ist das Ziel im Navi programmiert.

In den USA fahren bereits seit dem vergangenen Sommer die ersten Fords mit eingebautem "Sync"-System . Sagt man einem Sync-Ford: "Ich habe Hunger", dann werden nach einer kurzen Internetrecherche die Adressen der nächstgelegenen Restaurants vorgelesen. Außentemperatur, die nächstgelegene Werkstatt oder Apotheke – all das kennt das Auto, das dank GPS stets weiß, wo es sich befindet. Bislang gibt es Sync-Fords nur mit englischem Programm, Deutsch wird ihnen gerade beigebracht. 2012 sollen die ersten auch hier fahren.

Andere Hersteller feilen noch an maßgeschneiderten Konzepten für ihre Flotten. So wie Siri für das Telefon müssen die passenden Charaktere für die einzelnen Autotypen entwickelt werden. "Ein 7er BMW muss natürlich ganz anders sprechen als ein Mini", sagt Christian Süß , der Sprachverarbeitungssysteme für die BMW Group entwickelt. Gut möglich also, dass der deutsche Autofahrer sein liebstes Stück in Zukunft nicht mehr nur waschen, pflegen und tunen kann, sondern endlich auch mit ihm reden – wie einst David Hasselhoff mit seinem schwarzen Pontiac K.I.T.T. in der TV-Serie Knight Rider . Dann kann er sich im Stau neu eingetroffene SMS, Mails, Blog-Einträge und Facebook-News von seinem Toyota oder BMW vorlesen lassen. Und Manta-Witze, wenn sich mal wieder ein Opel-Fahrer riskant in seine Spur drängt.

Zur Startseite
 
Leserkommentare
  1. aussehen.

    Das Stimmt.
    Siri, ich hätte gerne Schokokekse.
    Schokokekse nicht im Adressbuch gefunden... Das nenn ich mal Intelligenz, die mich sprachlos macht.

    Apropos Sprachlos: Ohne und auch bei schlechtem Empfang, oder ausgelastetem Netz, bleibt Siri sprachlos. Maulfaules Ding...

    3 Leserempfehlungen
    • PigDog
    • 15. März 2012 13:26 Uhr

    Mit SIRI habe ich noch nicht geredet, aber dafür gerade gestern mal wieder mit dem Computer vom Telekom-Service.

    Wie immer ein ziemlich deprimierender Voprgang. Mit etwas zu kommunizieren dessen Intelligenz nur unwesentlich über der eines überfahrenen Igel's liegt macht wenig Freude!

    Und so lange DAS der durchschnittliche Stand der Technik ist, wird auch eine noch so schlagfertige und witzige SIRI bei'm Durchschnitts-Otto-Normalverbraucher Begeisterungsstürme auslösen...

    3 Leserempfehlungen
    Reaktionen auf diesen Kommentar anzeigen
    • PigDog
    • 15. März 2012 13:28 Uhr

    KEINE Begeisterungsstürme auslösen...

    muss es natürlich heißen.

    • PigDog
    • 15. März 2012 13:28 Uhr

    KEINE Begeisterungsstürme auslösen...

    muss es natürlich heißen.

    Antwort auf "Sprechende Computer..."
    • JeWe
    • 15. März 2012 13:32 Uhr

    "Den Hamburger Gruß »Moin, Moin« kontert Siri mit dem Hinweis: »Hallo. Du weißt, dass es bereits 19.32 Uhr ist, nicht wahr?«"

    Peinlich nur für Siri, dass "Moin" aber auch so gar nichts mit dem Morgen zu tun hat.

    8 Leserempfehlungen
  2. ... ab hier:

    "Computer? Einen Raktajino bitte!" Zzzzzzz

    Solange ich meine Kaffeemaschine mit Wasser und Kaffee befüllen muß, ist der Knopfdruck schneller als gesprochene Sätze.

    6 Leserempfehlungen
  3. Vielen Dank für diesen Artikel,
    Es hat wirklich Spaß gemacht ihn zu lesen!

    Mehr davon!

  4. ... in kürzester Zeit wenn die Namen in meinem Adressbuch auch nur um Millimeter von Standardnamen wie Hans Müller oder John Smith abweichen.

    Angeblich soll es ja besser werden wenn man die Dame ordentlich einarbeitet. Aber wieso sollte ich da Zeit reinstecken?

    Eine Leserempfehlung
  5. Wie so oft hat Apple es einfach nur besser vermarktet als Windows. Schon bei Windows XP konnte man eine Sprachsteuerung anmachen Diese war zwar noch im Anfangsstadium aber es gab die Ansätze. Apple ist also auch nur ein Nachmacher, der es aber zu vermarkten weis. Schon das Tablet hatte Windows vor Apple und nur die haben es eben nicht vermarktet bekommen.

    Das mit dem Hamburger Gruß kann ich nur als peinlich bezeichnen.

    3 Leserempfehlungen

Bitte melden Sie sich an, um zu kommentieren

  • Artikel Auf mehreren Seiten lesen
  • Schlagworte BMW | Telekom | Christian Süß | Lenovo | Technologie | Xbox
Service