Hört da wer mit? Sind gelöschte Bilder wirklich weg? Macht mich mein Smartphone süchtig? Welche dieser Sorgen berechtigt sind und welche übertrieben, ergründet der ZEIT-ONLINE-Schwerpunkt "Digitale Ängste". Dieser Artikel ist Teil davon.

Beim Teigkneten oder Kartoffelschälen das Rezept umblättern oder zum nächsten Spotify-Song skippen – wer das macht, hat schnell ein verschmiertes Rezeptbuch oder Tablet. Zum Glück gibt es ja smarte Assistenten, die wir nur fragen müssen.

Und die werden beliebter. Etwa jeder dritte Deutsche – Branchenumfragen dazu kamen zu verschiedenen Zahlen – nutzt Geräte mit Sprachassistenten. Die stecken nicht nur in Tablets und Smartphones, sondern auch in Autos, Waschmaschinen und sogar Brillen. Besonders verbreitet: Smart Speaker wie Amazon Echo, Google Home oder der Apple HomePod.

Doch die Bequemlichkeit hat ihren Preis. Im Fall der Sprachassistenten sind das private Daten, die Nutzerinnen preisgeben – das müssen sie, damit sie ein sprachgesteuertes Gerät nutzen können. Jede Frage, die jemand seinem Handy, Speaker oder Auto stellt, jede Aufforderung, jeder Befehl wird auf Rechnern der Firmen gespeichert. Und während man auf Android- und neueren iOS-Geräten wenigstens noch einen Knopf drücken muss, um die Sprachfunktion zu aktivieren, ist es bei den smarten Lautsprechern weniger offensichtlich, ob sie gerade zuhören oder nicht.

Achtung, es blinkt – Aufnahme!

Gewöhnlich scannen sie akustisch ihre Umgebung und warten darauf, dass das Aktivierungswort fällt – ein Name oder ein Begriff, den man selbst auswählen kann. Oder man lässt es bei der Werkseinstellung: Amazons Speaker hören standardmäßig auf "Alexa", Apple auf "Siri" und der Google Assistant auf "Okay, Google" oder "Hey, Google". Sobald die Systeme das Wort erkennen, verbinden sie sich mit der Cloud. Das heißt, die Sprachdatei wird in ein Rechenzentrum der Unternehmen weitergeleitet. Die Frage nach dem Wetter oder nach einem Witz bleibt dann nicht im eigenen Wohnzimmer, sondern landet auf Servern der Firmen.

Was dann passiert, beschreibt Amazon in einem White Paper so (es dürfte bei anderen Sprachassistenten ähnlich funktionieren): Die Software zur Spracherkennung wandelt das, was jemand sagt, in Text um. Jeder Begriff wird mit einem confidence score bewertet – er gibt an, wie sicher das System ist, den Befehl verstanden zu haben. Ist dieser Score hoch genug, wird der Text mithilfe von natural-language understanding (NLU) verarbeitet. Dabei interpretiert die Software das Gesagte und leitet daraus die vermuteten Absichten des Menschen ab, der gesprochen hat. Hat jemand etwa gefragt, wie das Wetter in Berlin heute sei, so zerlegt das NLU das in "Wetter", "Berlin" und "heute". Basierend darauf sucht es nach einer Quelle, die diese Frage beantworten kann: eine Datenbank mit aktuellen Wetterdaten zum Beispiel. Oft greifen die Systeme auch auf externe Quellen zurück wie auf sogenannte Skills, Sprachapps, die zumeist von Drittanbietern entwickelt werden. Dabei werden mitunter auch sensible Daten gesendet: Bestellt der Nutzer etwa per Sprache eine Pizza, so übermittelt Alexa dessen Adresse an den externen Anbieter. Im letzten Schritt übersetzt ein Text-to-Speech-System diese Informationen in eine Sprachdatei – und der Speaker spricht im Wohnzimmer. All das passiert innerhalb von Sekundenbruchteilen.

Kritikerinnen bezeichnen Geräte wie Amazon Echo oder Google Home wegen ihrer ständigen Habachtstellung als "Lauschangriffdöschen" oder gar als "Spion im Wohnzimmer". Der Vorwurf: Sie hörten 24 Stunden am Tag mit.

Doch nicht alles, was in einem Raum gesagt wird, geht ungefiltert an Amazon, Apple oder Google. Die Unternehmen formulieren ihre Datenschutz- und Nutzungsbedingungen schon mal ungenau – in diesem Punkt aber sind sie eindeutig: Nein, wir lauschen nicht ständig mit. Ohne eine Erwähnung des Aktivierungswortes würden keine Sprachaufzeichnungen gespeichert oder in die Cloud geladen, heißt es auf der Amazon-Website zu Amazon Echo. Laut Google werden alle lokalen Aufnahmen auf dem Lautsprecher Google Home wieder gelöscht, wenn das Codewort nicht gefallen sei. Und Apple schreibt im Benutzerhandbuch des smarten Speakers HomePod: "Nichts, was du sagst, wird an Apple-Server übermittelt. Dies geschieht erst, wenn der HomePod vor einer Anfrage ‘Hey Siri’ erkennt."

"In der Debatte um smarte Lautsprecher wird oft gesagt, dass sie immerzu mithörten – das stimmt so nicht", sagt auch Stephan Noller. Der studierte Psychologe und Unternehmer hat die vernetzten Lautsprecher auseinandergenommen, um die Architektur und Funktionsweise der Geräte zu verstehen, und einen eigenen Prototypen nachgebaut. Der interne Aufnahmespeicher der Geräte werde ständig überschrieben, sodass auf dem Gerät selbst langfristig nichts gespeichert werde. "Das Streaming der Audiodaten in die Cloud beginnt erst dann, wenn das Gerät angesprochen wurde und reagiert."