Alexa, hörst du grad zu? – Seite 1

Hört da wer mit? Sind gelöschte Bilder wirklich weg? Macht mich mein Smartphone süchtig? Welche dieser Sorgen berechtigt sind und welche übertrieben, ergründet der ZEIT-ONLINE-Schwerpunkt "Digitale Ängste". Dieser Artikel ist Teil davon.

Beim Teigkneten oder Kartoffelschälen das Rezept umblättern oder zum nächsten Spotify-Song skippen – wer das macht, hat schnell ein verschmiertes Rezeptbuch oder Tablet. Zum Glück gibt es ja smarte Assistenten, die wir nur fragen müssen.

Und die werden beliebter. Etwa jeder dritte Deutsche – Branchenumfragen dazu kamen zu verschiedenen Zahlen – nutzt Geräte mit Sprachassistenten. Die stecken nicht nur in Tablets und Smartphones, sondern auch in Autos, Waschmaschinen und sogar Brillen. Besonders verbreitet: Smart Speaker wie Amazon Echo, Google Home oder der Apple HomePod.

Doch die Bequemlichkeit hat ihren Preis. Im Fall der Sprachassistenten sind das private Daten, die Nutzerinnen preisgeben – das müssen sie, damit sie ein sprachgesteuertes Gerät nutzen können. Jede Frage, die jemand seinem Handy, Speaker oder Auto stellt, jede Aufforderung, jeder Befehl wird auf Rechnern der Firmen gespeichert. Und während man auf Android- und neueren iOS-Geräten wenigstens noch einen Knopf drücken muss, um die Sprachfunktion zu aktivieren, ist es bei den smarten Lautsprechern weniger offensichtlich, ob sie gerade zuhören oder nicht.

Achtung, es blinkt – Aufnahme!

Gewöhnlich scannen sie akustisch ihre Umgebung und warten darauf, dass das Aktivierungswort fällt – ein Name oder ein Begriff, den man selbst auswählen kann. Oder man lässt es bei der Werkseinstellung: Amazons Speaker hören standardmäßig auf "Alexa", Apple auf "Siri" und der Google Assistant auf "Okay, Google" oder "Hey, Google". Sobald die Systeme das Wort erkennen, verbinden sie sich mit der Cloud. Das heißt, die Sprachdatei wird in ein Rechenzentrum der Unternehmen weitergeleitet. Die Frage nach dem Wetter oder nach einem Witz bleibt dann nicht im eigenen Wohnzimmer, sondern landet auf Servern der Firmen.

Was dann passiert, beschreibt Amazon in einem White Paper so (es dürfte bei anderen Sprachassistenten ähnlich funktionieren): Die Software zur Spracherkennung wandelt das, was jemand sagt, in Text um. Jeder Begriff wird mit einem confidence score bewertet – er gibt an, wie sicher das System ist, den Befehl verstanden zu haben. Ist dieser Score hoch genug, wird der Text mithilfe von natural-language understanding (NLU) verarbeitet. Dabei interpretiert die Software das Gesagte und leitet daraus die vermuteten Absichten des Menschen ab, der gesprochen hat. Hat jemand etwa gefragt, wie das Wetter in Berlin heute sei, so zerlegt das NLU das in "Wetter", "Berlin" und "heute". Basierend darauf sucht es nach einer Quelle, die diese Frage beantworten kann: eine Datenbank mit aktuellen Wetterdaten zum Beispiel. Oft greifen die Systeme auch auf externe Quellen zurück wie auf sogenannte Skills, Sprachapps, die zumeist von Drittanbietern entwickelt werden. Dabei werden mitunter auch sensible Daten gesendet: Bestellt der Nutzer etwa per Sprache eine Pizza, so übermittelt Alexa dessen Adresse an den externen Anbieter. Im letzten Schritt übersetzt ein Text-to-Speech-System diese Informationen in eine Sprachdatei – und der Speaker spricht im Wohnzimmer. All das passiert innerhalb von Sekundenbruchteilen.

Kritikerinnen bezeichnen Geräte wie Amazon Echo oder Google Home wegen ihrer ständigen Habachtstellung als "Lauschangriffdöschen" oder gar als "Spion im Wohnzimmer". Der Vorwurf: Sie hörten 24 Stunden am Tag mit.

Doch nicht alles, was in einem Raum gesagt wird, geht ungefiltert an Amazon, Apple oder Google. Die Unternehmen formulieren ihre Datenschutz- und Nutzungsbedingungen schon mal ungenau – in diesem Punkt aber sind sie eindeutig: Nein, wir lauschen nicht ständig mit. Ohne eine Erwähnung des Aktivierungswortes würden keine Sprachaufzeichnungen gespeichert oder in die Cloud geladen, heißt es auf der Amazon-Website zu Amazon Echo. Laut Google werden alle lokalen Aufnahmen auf dem Lautsprecher Google Home wieder gelöscht, wenn das Codewort nicht gefallen sei. Und Apple schreibt im Benutzerhandbuch des smarten Speakers HomePod: "Nichts, was du sagst, wird an Apple-Server übermittelt. Dies geschieht erst, wenn der HomePod vor einer Anfrage ‘Hey Siri’ erkennt."

"In der Debatte um smarte Lautsprecher wird oft gesagt, dass sie immerzu mithörten – das stimmt so nicht", sagt auch Stephan Noller. Der studierte Psychologe und Unternehmer hat die vernetzten Lautsprecher auseinandergenommen, um die Architektur und Funktionsweise der Geräte zu verstehen, und einen eigenen Prototypen nachgebaut. Der interne Aufnahmespeicher der Geräte werde ständig überschrieben, sodass auf dem Gerät selbst langfristig nichts gespeichert werde. "Das Streaming der Audiodaten in die Cloud beginnt erst dann, wenn das Gerät angesprochen wurde und reagiert."

Alexa, Alexandra, Alexander?

Ob die smarten Speaker gerade Daten an Rechenzentren senden, erkennen Nutzerinnen und Nutzer an optischen Signalen: Bei Amazon Echo leuchtet am Rand ein blauer Kreis auf, wenn Daten verschickt werden, beim HomePod ist es ein runder weißer Punkt in der Mitte und bei Google Home sind es vier Punkte in den Google-Farben. Die Aufmerksamkeitsspanne der Sprachassistenten ist sehr kurz, sie beträgt meist nur wenige Sekunden – gerade lang genug, um das entscheidende Wort zu erkennen. Fällt es nicht, werden die Aufnahmen auf dem Gerät nach kurzer Zeit wieder überschrieben.

Im Optimalfall zumindest. Im Alltag ist es komplizierter. Die Sprachassistenten können nicht immer zwischen dem tatsächlichen Codewort und sehr ähnlich klingenden Begriffen unterscheiden. Die Verbraucherzentrale NRW demonstrierte schon 2017, dass Amazon Echo auf ähnliche Namen wie Alexandra oder Alexander reagiert. Beim Google Assistant reichten Wortabfolgen wie "Okay, du". Und Siri wählte mal den Notruf, wenn iPhone-Nutzerinnen von "100 Prozent" sprachen. Solche kleinen Missverständnisse können kuriose Auswirkungen haben, wie 2018 ein Fall veranschaulichte, über den US-Medien berichteten: Zwei Eheleute unterhielten sich, Alexa fühlte sich angesprochen und schickte das Gespräch als Audiodatei an einen Arbeitskollegen des Mannes – obwohl das Paar den digitalen Assistenten damit nicht beauftragt hatte. Der Kollege meldete sich sofort und wies auf den Fehler hin, ein weiterer Schaden entstand nicht. Amazon sprach damals von einer unwahrscheinlichen Verkettung von Umständen. Das Paar wollte den Echo trotzdem vorsichtshalber nicht mehr nutzen.

Von Automatisierung, die gar keine ist

Natürlich sind das Sonderfälle. Sie beweisen nicht, dass Sprachassistenten andauernd mitschneiden, was im Wohnzimmer oder am Kneipentisch besprochen wird. Und doch verdeutlichen diese Fälle: So schlau sind Spracherkennungssysteme nicht. "Intelligente Lautsprecher – das klingt erst einmal toll. Tatsächlich sind aber noch Menschen an der Entwicklung beteiligt", sagt Florian Schaub. Er forscht an der University of Michigan zu Datenschutz und Privatsphäre, vor allem bei vernetzten Geräten wie Amazon Echo oder Google Home. Gerade die Bedeutung neuer und unbekannter Wörter müsse teilweise händisch eingepflegt werden. Und auch darüber hinaus brauchen die digitalen Assistenten Menschen, die ihnen bei der Spracherkennung helfen, um uns Nutzerinnen und Nutzer nicht misszuverstehen.

Die kanadische Aktivistin Astra Taylor bezeichnet diesen Zustand als "Fauxtomation": Automatisierung sei gleichzeitig Realität und Ideologie. "Automatisierte Prozesse sind oft weitaus weniger beeindruckend, als es die Marktschreierei und die Propaganda um sie vermuten lassen – manchmal sind sie nirgendwo zu sehen", schreibt sie in einem Essay.

Damit meint Taylor zum Beispiel eine Praxis, die lange nicht bekannt war: Erst vor wenigen Monaten kam heraus, dass Menschen die Aufnahmen von Amazon, Google, Apple und Microsoft abhören. Dafür wurden die Aufnahmen oft an Drittunternehmen weitergeleitet. Freie Mitarbeiter und Angestellte korrigierten dann im Nachhinein Begriffe, die die Assistenten in der aufgezeichneten Situation nicht verstanden hatten, damit sie in Zukunft richtig reagieren. 

Was mit Verbesserung der Dienste genau gemeint ist, wird überhaupt nicht klar.
Florian Schaub, Assistenzprofessor an der University of Michigan

Die Smart-Speaker-Hersteller argumentierten, lediglich ein Bruchteil der Sprachdaten sei betroffen, es ginge darum, noch zielgenauere Antworten geben zu können. Nur hatten die Firmen ihre Nutzerinnen und Nutzer nicht ausdrücklich darauf hingewiesen, sondern die Datenschutzerklärungen, Nutzungsbedingungen und Handbücher so schwammig formuliert, dass sie solche Rechte einräumten. Forscher Schaub kritisiert die Intransparenz: "Was mit Verbesserung der Dienste genau gemeint ist, wird überhaupt nicht klar."

Dass Menschen ihre Interaktion mit den smarten Assistenten mithören, erscheint vielen Leuten unangenehmer als die Vorstellung, dass es eine Software tut. Ein verständlicher Impuls: Was man sich nicht traut, den besten Freund zu fragen, googelt man halt. Vor der Suchmaschine sind Wissenslücken irgendwie okay. Aber wenn jemand Fremdes davon mitkriegt, ist das peinlich.

Wenn die Frage nach dem Porno abgehört wird

Doch die Auswertung intimer Anfragen durch Software ist mindestens genauso beunruhigend. Amazon gibt an, dass die Sprachanfragen teils mit dem Nutzerkonto verknüpft werden. Genauer wird Amazon nicht. Das könnte aber etwa bedeuten: Wer den digitalen Assistenten nach Babyspielzeug fragt, bekommt möglicherweise Angebote auf Grundlage vorheriger Amazon-Einkäufe vorgeschlagen. Auch bei Google werden die Nutzerkonten verknüpft, dort können Nutzerinnen und Nutzer die Funktion aber abschalten. Sprecher von Apple hingegen sagen, dass Siri nur Daten für "personalisierte Aufgaben" verwende. Näher geht das Unternehmen auf Nachfrage nicht darauf ein.

Zwar waren die Aufnahmen, die später abgehört wurden, zumindest bei Apple und Google anonymisiert, also nicht mit einem Benutzerkonto verknüpft. Allerdings lässt sich immer noch viel daraus erkennen. Wie anonym können Daten schließlich sein, die unsere Stimme enthalten? Nach allem, was bisher bekannt ist, sind Stimmen einzigartig. Durch den spezifischen Klang, die individuelle Satzmelodie und Aussprache würden "die Anonymität und Beliebigkeit von personenbezogenen Daten" aufgehoben, argumentiert etwa der Kommunikationswissenschaftler Walter Sendlmeier.

Und auch aus dem, was Menschen zu den Assistenten sagen, kann man ihre Identität ableiten. Das zeigt ein Fall, über den 2018 das IT-Fachmagazin c’t berichtete. Ein Nutzer hatte bei Amazon die Daten angefordert, die das Unternehmen über ihn gespeichert hatte. Das kann seit der Einführung der Datenschutz-Grundverordnung jede Nutzerin bei jeder Firma tun. In den Daten des Amazon-Kunden fanden sich unter anderem 1.700 Audiodateien einer ihm fremden Person. Er wandte sich damit an die c’t. Und die Journalisten konnten allein über den Audioinhalt den Urheber identifizieren. 

Immerhin: Die Entrüstung über die abgehörten Sprachdaten setzte die Unternehmen unter Druck. So sehr, dass sie schnell reagierten: Apple und Google stoppten die Transkription der Sprachaufnahmen zunächst. In Zukunft sollen die Nutzer selbst entscheiden können, ob sie das wollen oder nicht. Auch Amazon, das die Praxis beibehielt, gibt den Kunden nun diese Möglichkeit und hat die Nutzungsbedingungen entsprechend aktualisiert.

Natürlich kann man die Aufregung für übertrieben halten – schließlich dürften die meisten Sprachaufnahmen harmlos sein: Dann hört halt jemand, wie man nach den Sportergebnissen gefragt hat oder nach den Temperaturen, na und? Doch manche Menschen teilen mit ihren Sprachassistenten höchst sensible Informationen. Eine Person, die Audiodaten für Apple auswertete, sagte gegenüber Spiegel Online, dass darin auch Kreditkartenangaben mit Nummer, Ablaufdatum, Sicherheitsnummer und Namen des Kontoinhabers sowie ärztliche Diagnosen oder Berichte von Operationen enthalten waren. Ein anderer, der Sprachanfragen für Google korrigierte, berichtete Vice von intimen Details wie Liebesbotschaften, Hass oder Suchanfragen für Pornos. "Andere Audioschnipsel klangen wie Textnachrichten, die jemand in sein Handy spricht, um nicht tippen zu müssen", berichtete die Person, die die Daten auswertete. Hinzu kann unnötiger Beifang kommen, wie etwa die unbeabsichtigten Aufzeichnungen, von denen das amerikanische Paar im Jahr 2018 Medien berichtete.

Auch solche versehentlichen Aufnahmen sollen nun nicht mehr gespeichert werden, versprechen die Hersteller. Google Home lösche unbeabsichtigte Anfragen sofort, wenn das Gerät starte, heißt es in einem Google-Blogbeitrag aus dem September. Wie genau der Assistant das erkennt, steht dort nicht. Künftig will auch Apple alle Aufnahmen entfernen, bei denen Siri versehentlich ausgelöst wurde.

Aufbewahrt für unbestimmte Zeit

Doch wie lange werden Sprachaufzeichnungen überhaupt aufbewahrt? Amazon gibt auf Nachfrage von ZEIT ONLINE keinen Zeitraum an, in dem Sprachaufnahmen automatisiert gelöscht werden. Theoretisch könnten sie also unendlich lange auf den Servern liegen. Immerhin lassen sich die Sprachaufnahmen in der Alexa-App oder über amazon.de/alexaprivacy entfernen. Allerdings bleibt das Unternehmen bei den Löschangaben vage. Man beginne "sofort" mit dem Löschprozess, heißt es auf Nachfrage. Wie lange dieser dauert, dazu gab Amazon keine Auskunft. Dabei wäre das eine wichtige Information. Denn nur weil eine Sprachaufnahme aus der App der Nutzerinnen verschwindet, ist sie noch lange nicht von allen Firmenservern entfernt (lesen Sie dazu auch unseren Text zu vermeintlich gelöschten Fotos in der Cloud).

Sprechern von Google zufolge werden nur Anfragen an Google Home gespeichert, wenn die Nutzerin die "Sprach- und Audioaktivitäten" in ihrem Profil aktiviert. Selbst dann kann sie einstellen, dass ihre Daten nach drei bis 18 Monaten entfernt werden. Die Mehrheit der Daten würde ansonsten nach mehreren Monaten gelöscht, heißt es auf Nachfrage. Ab dem Zeitpunkt, an dem jemand seine Daten beseitigt, dauere es gewöhnlich ein bis zwei Monate, bis sie auch von anderen Servern verschwunden seien.

Apple will nach der Aufregung um das Abhören standardmäßig nur noch Transkripte, aber keine Audiodateien mehr speichern. Stimmen die Nutzer dem zu, können die Audiodaten bis zu sechs Monate lang aufgehoben werden. So steht es im aktuellen iOS Security Guide. Eine Kopie könne von dem Unternehmen bis zu zwei Jahre lang für die Verbesserung von Siri weiterverwendet werden. Ein kleiner Teil von Aufzeichnungen, Abschriften und den zugehörigen Daten (also nicht nur den Sprachaufnahmen) werde über diesen Zeitraum hinaus genutzt, heißt es im Guide. Es könnten "manche Aufnahmen, die sich auf Musik, Mannschaften oder Spieler, Unternehmen oder Sehenswürdigkeiten beziehen, ebenfalls zur Verbesserung von Siri gespeichert werden". Heißt konkret: Im Prinzip kann jede Anfrage zum FC St. Pauli oder Schloss Neuschwanstein so lange von Apple genutzt werden, wie Apple will.

Nutzer verhalten sich "ein Stück weit irrational"

Müssen wir in Zukunft also noch mehr aufpassen, was wir sagen oder nicht, wenn digitale Assistenten im Raum sind? Digitalunternehmer Stephan Noller hält diese Ängste für "ein Stück weit irrational". "Fast jeder hat ein Smartphone auf dem Nachttisch liegen, das ununterbrochen Daten sendet und empfängt." Der Unterschied sei, dass die Nützlichkeit von Smartphones für die meisten wichtiger sei als die damit verbundenen Risiken eines Eingriffs in die Privatsphäre.

Aus den Erfahrungen mit anderen digitalen Diensten, die viele Daten verarbeiten, wissen wir: Solange Menschen nur irgendeinen Nutzen davon haben, ist Datenschutz in den Augen vieler eher ein Nice-to-Have, kein Must-have. Es bräuchte einen Skandal mit einem großen monetären Schaden, damit die Bedrohung klar würde, sagte der Soundforscher Holger Schulze kürzlich im Digitalpodcast von ZEIT ONLINE. Es müsse "eine gesamtgesellschaftliche Ächtung" etwa davon geben, dass Daten aufgezeichnet und Nutzeraktivitäten verfolgt werden. Aktuell würden wir nur die Oberfläche sehen und bekämen gar nicht mit, was im Hintergrund passiert.

Wenn Algorithmen Entscheidungen treffen, sollte es Pflicht sein, das kenntlich zu machen.
Stephan Noller, Vizepräsident des Bundesverbands Digitale Wirtschaft

Stephan Noller, der auch Vizepräsident des Bundesverbandes Digitale Wirtschaft ist, wünscht sich mehr Transparenz: "Wenn Algorithmen Entscheidungen treffen, sollte es Pflicht sein, das kenntlich zu machen." Die Erzählung, dass Algorithmen zu komplex seien, um sie zu erklären, werde bewusst durch einige Akteure in der Branche gestreut. "Wir sollten aber den Anspruch haben, sie erklärbar und transparent zu machen." Er schlägt vor, dass die Lautsprecher nicht nur Lichtsignale sendeten, sobald sie Daten in die Cloud schickten, sondern auch ein deutlicher Ton erklingt. Das können heutige Lautsprecher schon – der Nutzer muss es aber erst umständlich in den Einstellungen aktivieren.

Der IT-Forscher Florian Schaub fordert sogar absolute Datenhoheit: "Der Nutzer muss immer selbst entscheiden können, was mit seinen Daten passiert." Eine sinnvolle Forderung. In der Praxis haben dafür die Unternehmen allerdings noch zu viel Macht über die Daten. Zumindest das lässt sich nach dieser Recherche sicher sagen.