Wer an Spione denkt, stellt sich abgezockte Profis vor, die immer auf der Hut sind. Die sicherstellen, dass kein ungebetener Gast im Raum mithört. Die genau schauen, ob unter Tisch, Sofa und Stuhl keine Wanze klebt. Aber neben einem Hang zur Paranoia benötigen Agenten wohl in Zukunft noch etwas anderes: einen ausgeprägten Putzfimmel.

Forscher am Massachusetts Institute of Technology (MIT) ist es gelungen aus stummen Videos die Tonspur zu rekonstruieren. Alles, was sie dafür benutzten, war eine Kamera, ein paar Algorithmen und eine Chipstüte.

Das physikalische Prinzip, das hinter der neuen Technik steckt, ist das Phänomen des akustischen Mitschwingens. Treffen Schallwellen auf Gegenstände, beginnen diese, sich hin und her zu bewegen. Die ausgelösten Schwingungen sind zwar für das menschliche Auge unsichtbar. Aber hochauflösende Kameras können die nicht einmal mikrometergroßen Bewegungen aufzeichnen. In der Theorie würde also ein entsprechendes Programm ausreichen, um anhand der Videobilder herauszufinden, welche Musik im Raum gespielt oder was gesprochen wurde. Dass das inzwischen auch praktisch machbar ist, bewiesen die MIT-Forscher nun in einem Experiment.

Dafür ließen sie in einem Raum eine Frau ein Kinderlied singen, während einige Meter entfernt eine Chipstüte auf dem Boden lag. Aus einem zweiten Raum filmte eine Kamera durch eine schalldichte Scheibe die herumliegende Chipstüte ab. Anhand der Bilder der vibrierenden Tüte ließ sich das Kinderlied erstaunlich gut rekonstruieren, wie ein auf der Website des MITs vorgestelltes Video zeigt. Die detaillierten Ergebnisse sollen Ende 2014 veröffentlicht werden.

In der Pressemitteilung des MITs erklärt Alexei Efros, Professor an der Berkley-Universität in Kalifornien: "Als Wissenschaftler dachten wir bislang bei Filmen wie James Bond: 'Das ist Hollywoodtheater, völlig unmöglich.' Nun können wir plötzlich genau so etwas."

Mit der Smartphone-Kamera die Identität eines Sprechers feststellen

Die neue Technik der Forscher funktioniert nicht nur mit Chipstüten. Im Test haben das Zittern von Aluminiumfolie, Pflanzenblättern oder Wasseroberflächen ebenfalls ausgereicht, um eine brauchbare Tonspur nachzubauen. Ob auch härtere Materialien – wie Wände – Rückschlüsse zulassen, ist noch nicht bekannt. 

Bemerkenswert ist weiter, dass die Software nicht nur mit hochauflösenden High-Speed-Kameras funktioniert. Aus dem Video einer handelsüblichen Kamera, wie sie in Smartphones verbaut ist, ließ sich zwar nicht die gesamte Tonspur rekonstruieren. Immerhin konnte das Programm aber herausfinden, wie viele Menschen in einem Raum gerade sprachen und ob es eine der Stimmen schon vorher gehört hat.

Wegen einer Chipstüte überführt

Abe Davis ist federführender Autor der Studie am MIT. Er sieht die Möglichkeiten der neuen Technik vor allem in der Materialforschung. Doch ob Davis will oder nicht: Die Studie zeigt definitiv eine neue Möglichkeiten auf, um Menschen auszuspionieren. Anfang des Jahres staunten die Teilnehmer des 30. Chaos Communication Congress (30C3) noch über in Computer verbaute Funkwanzen der NSA, die sich mithilfe von Radargeräten auslesen ließen. Verglichen mit der Chipstüten-Methode wirken diese Geräte fast schon antiquiert.

Es ist um einiges einfacher, ein Zimmer abzufilmen als es zu verwanzen. Dafür braucht es nicht einmal ein Fenster zur Straße hinaus. In jedem Notebook, Tablet und Smartphone sind mehrere Kameras verbaut. Haben Angreifer erst einmal Zugriff auf die Kamera, ist das Mikrofon nicht weiter nötig, um das Opfer auszuhorchen.

Efros hat bereits ein konkretes Szenario im Kopf: "Vielleicht wird in Zukunft ein Mörder seine Schuld eingestehen, weil es ein Überwachungsvideo von seiner vibrierenden Chipstüte gibt."