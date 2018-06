"Ich bin kein Roboter, meine Intonation ist immer anders", sagt Donald Trump. Nur ist es eben nicht Trump selbst, der das sagt, sondern eine Software, die so klingt wie der US-Präsident.

Sie kommt aus Kanada. Das Start-up Lyrebird aus Montreal entwickelt derzeit einen Stimmengenerator, der beliebige Stimmen imitiert, wenn er nur wenige Sekunden lang das Original analysieren kann. Künstliche Intelligenz macht es möglich, genauer: künstliche neuronale Netze. (Deren Geschichte und Funktionsweise erklären wir hier ausführlich.)

Solche Netze werden heute in vielen Situationen eingesetzt, in denen es um Mustererkennung geht. Das ist ihre große Stärke, oftmals sind sie darin besser als Menschen. Das Netzwerk beziehungsweise der dahinter liegende Algorithmus von Lyrebird erkennt Muster in Stimmen und reproduziert sie.



Neue Stufe von Fake-News

Trainiert werde das Netzwerk mit Tausenden von Sprechern, sagt ein Lyrebird-Mitarbeiter im Gespräch mit dem IT-Portal Gizmodo. "Dann komprimieren wir die Informationen über einen neuen Sprecher, sozusagen die Stimmen-DNA, in einem kleinen Schlüssel. Mit dem Schlüssel erzeugen wir neue Sätze." Auch Intonation und Emotion sollen die künstlichen Stimmen transportieren können – das muss aber vorher entsprechend eingestellt werden, ist also nicht sehr variabel.

Noch steht Lyrebird am Anfang, technisch und organisatorisch. Das Start-up sucht noch Geldgeber und Ingenieure, und die bisher veröffentlichten Stimmproben sind nicht perfekt. Ein menschlicher Stimmenimitator könnte Trump wahrscheinlich noch überzeugender darstellen. Aber im Gegensatz zur KI nicht beliebig viele andere Stimmen. Und die Technik dürfte schnell besser werden, falls Lyrebird die nötige Unterstützer auftreiben kann.

Die Frage ist nur: Ist das erstrebenswert?

Im vergangenen November kam diese Frage schon einmal auf. Damals stellte Adobe mit dem Project VoCo eine Art Photoshop für Audioaufnahmen vor. Die Software braucht 20 Minuten Trainingsmaterial, um beliebige Stimmen zu synthetisieren. Anschließend muss man nur noch in ein Eingabefeld tippen, was sie sagen soll.

Was für Hörbuch- und Podcastproduzenten nützlich sein mag, weil es die Postproduktion qualitativ schlechter Aufnahme enorm vereinfachen könnte, ließe sich auch zur gezielten Desinformation verwenden. Fake-News könnten eine ganz andere Qualität bekommen, wenn man Politikern oder anderen beliebige Aussagen in den Mund legen kann.

Adobe will das, sofern die Software überhaupt jemals auf den Markt kommen sollte, mit "akustischen Wasserzeichen" verhindern, die nachgemachte Aufnahmen von echten unterscheidbar machen sollen.