SpracherkennungVerständnisvolle Geräte

Die Maschinen werden menschlicher. Autos, Fernseher und Kaffeemaschinen werden demnächst verstehen, was wir ihnen sagen, und unsere Befehle ausführen. Das macht das Leben einfacher – und birgt womöglich Gefahren. von Ulf Schönert

Schlagfertig ist die Dame. Den Hamburger Gruß "Moin, Moin" kontert Siri mit dem Hinweis: "Hallo. Du weißt, dass es bereits 19.32 Uhr ist, nicht wahr?" Und auch sonst ist die virtuelle Assistentin, die auf allen neuen iPhones installiert ist , nicht auf den Mund gefallen. "Ich, Siri, wurde von Apple in Kalifornien entwickelt", stellt sie sich beim ersten Einschalten vor. "Was machst du so?", ist man geneigt zu fragen, und tut man es, antwortet die Telefonstimme: "Was ich mache? Ich spreche mit dir." Nie ließ ein technisches Gerät seinen Besitzer so dämlich aussehen – und sich selbst damit umso schlauer.

Seit ein paar Monaten ist Siri auf dem Markt und tut schon auf Millionen iPhones ihren Dienst. Sie ist eine Sekretärin, die Diktate aufnimmt, Termine verwaltet, Musik anmacht und E-Mails raussucht. Aber auch eine persönliche Assistentin für den Alltag. "Brauche ich heute einen Regenschirm?", kann man sie fragen. "Nein, heute scheint den ganzen Tag die Sonne", antwortet Siri dann zum Beispiel. Und sorgt mit solch ganz alltäglichen Hilfsdiensten dafür, dass sich bei Handynutzern eine neue Bedienweise etabliert: Die Leute beginnen, mit ihren elektronischen Geräten zu reden.

Anzeige

Bewirkt hat dies der US-Spracherkennungsspezialist Nuance . Seine Technologie steckt hinter Siris Sprachvermögen. Und auch Hunderte andere elektronische Geräte, die entweder schon sprechen können oder es gerade lernen, greifen auf die Spracherkennung von Nuance zurück: Navis, PCs, Autos. Obendrein gehören die auf fast jedem Handy installierten Eingabemethoden T9 und Swype zu Nuance. So wurde das Unternehmen mit Hauptsitz in Massachusetts vom Nischenprodukthersteller zum Milliardenkonzern mit weltweit 7.000 Mitarbeitern, die mehr als 70 Sprachen betreuen.

Die Deutschland-Niederlassung liegt in einem Gewerbegebiet außerhalb von Aachen . Wer zu Besuch kommt und einen Kaffee trinken möchte, bestellt ihn nicht bei seinem Gastgeber, sondern direkt bei der Kaffeemaschine, die auf dem Empfangstresen steht. Der Befehl "Kaffee schwarz" wird ebenso fehlerfrei und prompt umgesetzt wie "Latte Macchiato".

Eine weitere Anwendung der Technologie führt Martin Held in seinem Büro vor. "Durchsuche Wikipedia nach ›Spracherkennung‹", sagt Held, der bei Nuance für die Diktiersoftware Dragon Naturally Speaking zuständig ist. Der Computer gehorcht. Ein Browser öffnet sich, darin die deutschsprachige Wikipedia-Seite. Wie von Zauberhand ist das Suchwort "Spracherkennung" schon eingegeben, und der Lexikonartikel erscheint. "Mit unserer Software können Sie inzwischen jeden Computer komplett freihändig steuern", sagt Held. Konzipiert wurde Dragon Naturally Speaking als Diktierhilfe für Vielschreiber und Büroangestellte. Einem Millionenpublikum ist das Programm durch den Abkömmling Dragon Dictation bekannt, eine kostenlose App, mit der man seinem Handytexte diktieren kann und das inzwischen auf zahllosen iPhones läuft.

Sogar das klassische Terrain der Fernbedienung erobert die Sprachtechnologie – die Fernsehsteuerung. Auf Englisch funktioniert es schon: "Switch to CNN" , sagt Raimund Schmald, bei Nuance Experte für den Einsatz von Sprachtechnologie im Wohnzimmer. Der Fernseher schaltet auf CNN um. Aber hat das Sinn? Ist der Druck auf die Fernbedienung nicht schneller und praktischer? Das gibt Schmald gern zu. Um dann sogleich zu zeigen, wofür die Technologie wirklich gut ist: etwa um einen Festplattenrekorder zu programmieren. Anstatt mit den Pfeiltasten der Fernbedienung mühsam Buchstaben auf einer Bildschirmtastatur auszuwählen, muss Schmald nur noch einen Satz laut sagen: "Search movies with Cameron Diaz" – und schon erscheint eine entsprechende Trefferliste, zusammengestellt aus dem aktuellen Fernsehprogramm. Er muss nur noch einen Film auswählen, schon ist der Timer programmiert.

Vieles spricht dafür, dass 2012 das Jahr des Durchbruchs für die Sprachbedienung wird. Gerade hat LG eine TV-Fernbedienung vorgestellt , die mit einem Mikrofon ausgestattet ist, in das man Suchbegriffe sprechen kann. Die Telekom arbeitet an einer Sprachsteuerung für ihr "Entertain"-System. Samsung und Lenovo stellten auf der Consumer Electronics Show in Las Vegas Fernseher vor, die sich mit Handzeichen und Sprachbefehlen bedienen lassen , Intel arbeitet an entsprechenden Notebooks . "Das Thema Spracherkennung hat eine große Zukunft", glaubt Alexander Hengesbach vom Marktforschungsunternehmen Sirvaluse, das auf die Bedienbarkeit von technischen Geräten spezialisiert ist. "Viele Abläufe lassen sich so radikal vereinfachen. Darin steckt enormes Potenzial."

Leserkommentare
    • Chew
    • 15. März 2012 14:25 Uhr
    9. HMMs?

    Sicher, dass es "Hidden-Markov-Methode" heißt? Ich bin mir doch sehr sicher, dass es "Hidden-Markov-Modelle" sein müssten. Ansonsten bin ich fast überrascht, dass immernoch HMMs dafür verwendet werden. Eigentlich gibt es inzwischen Verfahren, die den HMMs gegenüber einige Vorteile bieten, zumindest so lange es um Erkennung und nicht um Generierung geht. Aber ich bin kein Spracherkenner, vielleicht braucht man HMMs aus speziellen Gründen, die mir gerade nicht bewusst sind.

  1. von mir aus könnten wir die Entwicklung jetzt stoppen. Ich bin eigentlich ganz zufrieden und benutze auch gern die Tastatur. Ach ja, Facebook, welches viele für das Internet halten, sollte man auch wieder einstampfen.

    4 Leserempfehlungen
  2. aber neu ist Spracherkennung seit etwa 15 Jahren nicht mehr. Das können die hiesigen Medien (speziell die Zeit tut es voller Inbrunst, Taz is aber auch nicht viel besser in ihrer Apple-Verehrung) noch so oft verkünden. Diktierprogramme gibt es schon seit Jahren und viele davon benötigen im Gegensatz zu Siri auch keine Internetverbindung, um zu funktionieren.

    "»Brauche ich heute einen Regenschirm?«, kann man sie fragen. »Nein, heute scheint den ganzen Tag die Sonne«, antwortet Siri dann zum Beispiel."

    erm... selber ausprobiert oder einfach mal komplett ungeprüft aus dem Werbespot übernommen?^^ Vorsicht, copy+paste kann Siri demnächst auch, machen Sie sich nicht überflüssig, sonst ist der Job weg und ihr Schreibtisch wird gegen ne iPhone-Ladestation ausgetauscht.

    PS: Ich freue mich schon auf die in der Bahn diktierten SMS. Dann stören zumindest die zu lauten MP3-Player nicht mehr, und ich hab eine neue, unterhaltsame Beschäftigung... Leuten in meinem Abteil unerwünschte Worte in die SMS einfügen.

    5 Leserempfehlungen
  3. Erstaunlich, die vielen negativen Kommentare. Ich freue mich über jede technische Neuerung, welche unser aller Leben leichter macht. Auch wenn SIRI nicht perfekt ist, in drei, vier Jahren wird es noch viel besser funktionieren. Ich bin dankbar über alle die Ingenieure, welche sich tagtäglich ihre Lebenszeit opfern, um unser Leben angenehmer zu gestalten. Leute, lernt Dankbarkeit !

    2 Leserempfehlungen
    Reaktionen auf diesen Kommentar anzeigen

    ...wir sind aber in Deutschland, vergessen Sie das nicht. Es gehört heute mehr denje zu unserer Kultur alles schlecht zureden.
    Ich für meinen Teil nehme die neue Technik mit, soweit mich diese interessiert.
    Interessiert mich eine Neuerung nicht, ignoriere ich diese. Das können scheinbar nicht alle -- immer feste Druff auf das Unternehmen oder sonstiges.
    Anscheinend geht es uns allen noch zu gut, dass wir uns noch über so "Nebensächlichkeiten" permanent negativ äußern müssen ;-)

    Wollen Sie wirklich in einem Bus sitzen in dem die Leute zu Ihrem Geraet sprechen?

    Die Sprachsteuerung hat sicherlich Ihren Nutzen in manchen Bereichen, aber in allen in denen sie bisher gepriesen wird bringt sie keinerlei Vorteile.
    Was sagt es mir wenn jemand mit seinem Geraet spricht? Das dieser Mensch offenbar mit keinem anderen Menschen sprechen kann oder will - andererseits mit jemandem der Befehle in ein Geraet bellt will man sich nicht unbedingt im aehnlichen Stil unterhalten.

    Ich habe auf meinem alten BlackBerry die Sprachsteuerung recht oft benutzt (War auch nicht Nuance und auch besser als Nuance auf meinem neuen Blackberry) - bis ich herausgefunden habe wie ich mit Tasten effektiver bin.
    Wer aus 200 TV Sendern (wie im Text vorgeschlagen) einen auswaehlen will mag an einer Sprachsteuerung gefallen finden - oder auch nicht, denn fuer 3 sehenswerte TV Sender kann man sich die Kanalnummern merken und diese per Fernbedienung eintippen...

    Wo soll eine Sprachsteuerung Vorteile bringen? Beim diktieren vielleicht - andererseits, jemand der "Touch Tiping" lern waere erneut wesentklich schneller...

    Fuer Normalbuerger ist eine Sprachsteuerung sinnentleert.

    A propose BlackBerry - apple hat die Idee gestohlen, schon mein altes BlackBerry von 2008 (2007 erschienen) hatte ein egut funktionierende Sprachsteuerung - also auf Mobiltelefonen nichts neues. Nur weil rottendes Obst drauf klebt wird es als heilig gepriesen...

    Pragmatisch trifft es eher. Was nutzt es, die Technik auf jedes erdenkliche Gerät zu übertragen, wenn sie nur bei der Hälfte davon sinnvoll eingesetzt ist?

    In diesem Sinne ist ein sprachgesteuerter Fernseher in einem nerdigen Single-Haushalt sicher ein witziges Gimmick, beim familiär-gemeinschaftlichen Fernsehabend eher eine Katastrophe. "Ich will Sat1!" - "Nein, ARD!" - "Ruhe, Pro7!" switchswitchswitchswitchswitchswitch...

    ;)

  4. ...wir sind aber in Deutschland, vergessen Sie das nicht. Es gehört heute mehr denje zu unserer Kultur alles schlecht zureden.
    Ich für meinen Teil nehme die neue Technik mit, soweit mich diese interessiert.
    Interessiert mich eine Neuerung nicht, ignoriere ich diese. Das können scheinbar nicht alle -- immer feste Druff auf das Unternehmen oder sonstiges.
    Anscheinend geht es uns allen noch zu gut, dass wir uns noch über so "Nebensächlichkeiten" permanent negativ äußern müssen ;-)

    Eine Leserempfehlung
    Antwort auf "Warum so negativ"
  5. Wollen Sie wirklich in einem Bus sitzen in dem die Leute zu Ihrem Geraet sprechen?

    Die Sprachsteuerung hat sicherlich Ihren Nutzen in manchen Bereichen, aber in allen in denen sie bisher gepriesen wird bringt sie keinerlei Vorteile.
    Was sagt es mir wenn jemand mit seinem Geraet spricht? Das dieser Mensch offenbar mit keinem anderen Menschen sprechen kann oder will - andererseits mit jemandem der Befehle in ein Geraet bellt will man sich nicht unbedingt im aehnlichen Stil unterhalten.

    Ich habe auf meinem alten BlackBerry die Sprachsteuerung recht oft benutzt (War auch nicht Nuance und auch besser als Nuance auf meinem neuen Blackberry) - bis ich herausgefunden habe wie ich mit Tasten effektiver bin.
    Wer aus 200 TV Sendern (wie im Text vorgeschlagen) einen auswaehlen will mag an einer Sprachsteuerung gefallen finden - oder auch nicht, denn fuer 3 sehenswerte TV Sender kann man sich die Kanalnummern merken und diese per Fernbedienung eintippen...

    Wo soll eine Sprachsteuerung Vorteile bringen? Beim diktieren vielleicht - andererseits, jemand der "Touch Tiping" lern waere erneut wesentklich schneller...

    Fuer Normalbuerger ist eine Sprachsteuerung sinnentleert.

    A propose BlackBerry - apple hat die Idee gestohlen, schon mein altes BlackBerry von 2008 (2007 erschienen) hatte ein egut funktionierende Sprachsteuerung - also auf Mobiltelefonen nichts neues. Nur weil rottendes Obst drauf klebt wird es als heilig gepriesen...

    3 Leserempfehlungen
    Antwort auf "Warum so negativ"
    Reaktionen auf diesen Kommentar anzeigen

    ...nach vorne als ersten Satz schreiben sollen, dann hätte ich mir das Lesen Ihrer (voreingenommenen) Meinung (Sie scheinen ein persönliches Problem mit dem Unternehmen Apple zu haben) sparen können.
    Wenn Ihnen diese Sprachsteuerung keinen Vorteil bringt, dann nutzen Sie diese einfach nicht. Es gibt aber sicher Menschen die daran Interesse haben (zu denen ich jedoch auch nicht gehöre). Sie nutzen "touch tiping", was auch immer das ist. Sie finden es praktisch...andere benötigen diese Funktion nicht. Deswegen kann man andere Funktionen aber akzeptieren, ob die nun von Apple oder Samsung kommen - wenn interesiert das. Technik und Fortschritt gehört zu unseren Leben.
    Und daher stimme ich dem Artikel zu. Heute interessiert es mehr Menschen als noch vor zig Jahren, daher wird es, wie auch 3D TV (was sicherlich auch nicht jeder braucht), eine schnellere Entwicklung geben und bald Standard sein.

  6. auf der Cebit mal Spracherkennung testen konnte, die fast schon wie Siri funktioniert hat, ist seitdem nicht viel passiert. War glaube ich in Halle 1..

    Der PC hatte aber keine Cloud mit zig Servern im Rücken, sondern war ein normaler PC von damals. Klingt also eher nach einem Rückschritt das Ganze, bloß wirds als Neuheit verkauft. Clever von Apple.. Wer weiß, was deren Server insgeheim auswerten.

    Ich warte ja immer noch darauf, das ich mich endlich in meiner Muttersprache mit jedem Menschen auf der Welt unterhalten kann und dieser in seiner Muttersprache mit mir. Das wäre mal was, wofür ich sogar richtig Geld ausgeben würde..

    5 Leserempfehlungen
  7. Pragmatisch trifft es eher. Was nutzt es, die Technik auf jedes erdenkliche Gerät zu übertragen, wenn sie nur bei der Hälfte davon sinnvoll eingesetzt ist?

    In diesem Sinne ist ein sprachgesteuerter Fernseher in einem nerdigen Single-Haushalt sicher ein witziges Gimmick, beim familiär-gemeinschaftlichen Fernsehabend eher eine Katastrophe. "Ich will Sat1!" - "Nein, ARD!" - "Ruhe, Pro7!" switchswitchswitchswitchswitchswitch...

    ;)

    Eine Leserempfehlung
    Antwort auf "Warum so negativ"

Bitte melden Sie sich an, um zu kommentieren

  • Artikel Auf einer Seite lesen
  • Schlagworte BMW | Telekom | Christian Süß | Lenovo | Technologie | Xbox
Service