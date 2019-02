Aus Björn Schullers Mund fließt ein Auf und Ab, keine gleichförmigen, neutralen Sätze, nein, euphorische Passagen wechseln sich mit nachdenklichen ab, als er von Erfolgen und Problemen in seiner Arbeit berichtet. Es geht um Computer, die menschliche Emotionen entschlüsseln können. Es ist Januar 2018. Schuller spricht bei einer Konferenz des Bundesforschungsministeriums namens "interEmotio". Das Publikum weiß, was er sagen wird, schließlich sind alle hier mit demselben Thema befasst – dennoch folgt es ihm gebannt.

Es gibt geborene Redner, doch Björn Schuller gehört mitnichten dazu. Das bezeugen Mitschnitte alter Vorträge: eintönig, langatmig, voller Ingenieursklischees. Wie ist der Augsburger Informatik-Professor zu einem geworden, bei dem der Funke überspringt?

Nach dem Auftritt in Bonn verrät Schuller sein Geheimnis: Es sei ein Nebeneffekt seiner Forschung. Seit 18 Jahren gehe er der Frage nach, ob und wie sich Gefühle allein aus Merkmalen der Stimme ablesen lassen. Ein frühes Experiment habe ihn zufällig persönlich weitergebracht: Er habe Videos erfolgreicher YouTuber ausgewertet, und zwar allein mit Blick auf die Emotionen in deren Stimmen, bis sein Computer treffsicher vorhersagen konnte, wie gut ein Film beim Publikum ankam. Als zentrales Muster, schildert Schuller, habe der Algorithmus die Abwechslung zwischen Signalen für positive und negative Emotionen ausgemacht. Für abwechslungsreiche Signale sorgt er nun auch in seinen eigenen Vorträgen: Zwischen zwei Highlights platziert er einen nachdenklichen Inhalt oder eine ungelöste Frage, dabei spielt er hörbar auf der emotionalen Klaviatur. "Es funktioniert" – inzwischen ist der Professor ein gefragter Redner.

Doch Schuller ist auch Unternehmer. Vorort-Termin ein Jahr später in Gilching bei seinem Start-up Audeering: Zwei Mitarbeiter versuchen, eine App zu überlisten, die Gefühle aus der Stimme erkennt.

So sehr der Entwickler Milenko Saponja sich auch bemüht, "glücklich" zu klingen, auf dem Display des Smartphones erscheint das Symbol für einen "neutralen" Gemütszustand. Chef Schuller springt ihm bei: "Das Problem ist, dass das System mit echten Emotionen trainiert wurde", erklärt der Wissenschaftler lächelnd, "aber wenn wir es jetzt vorführen, müssen wir Emotionen nachahmen." Saponja, der also nur scheinbar glücklich ist, schweigt lieber. Dafür ergänzt sein Kollege Hesam Sagha begeistert: "Wir können sogar die Persönlichkeit entschlüsseln, allein aus der Stimme." Dafür müssten Psychologen viele Fragebögen ausfüllen, Therapeuten lange Gespräche führen. Sagha findet: "Es ist doch viel einfacher, ein paar Sekunden zu sprechen."

Einfach die Stimme klingen lassen?

Offenbar hinterlassen flüchtige Gefühle und dauerhafte Persönlichkeitsmerkmale eindeutige Spuren in unserer Stimme. Nicht, was sie ausdrücken, sondern die Art und Weise, wie wir sprechen, verrät, wie wir uns fühlen und wer wir sind.

Die Technik dazu ist gerade auf dem Sprung in den Alltag, weil zwei Faktoren zusammenkommen: erstens die Computertechnik des maschinellen Lernens mit ihrem Talent, verborgene Muster zu erkennen. Zweitens die Daten, einfach weil immer mehr Menschen mit ihren Digitalgeräten sprechen und dabei riesige Datensätze erzeugen. So langsam wird die Industrie aufmerksam: Was winkt demjenigen, der Gefühle ausliest, ohne dass die Fühlenden es auch nur bemerken?

Jetzt ist der richtige Zeitpunkt, um in die Szene der Stimmenleser hineinzuhorchen – statt in ein paar Jahren überrascht festzustellen, was sie alles aus uns heraushören.

Shrikanth Narayanan von der University of California hat vor ein paar Jahren eine gefühlsmäßig recht heikle Situation aufgezeichnet, nämlich wie Eheleute beim Paartherapeuten miteinander sprachen. Der Computer analysierte nicht die Bedeutung der Worte, nur den Klang der Stimmen, und wurde später gefüttert mit den Angaben, welche Ehe hielt und welche scheiterte.

Bald sagte das System in vier von fünf Fällen korrekt voraus, ob eine Ehe nach Ende der Therapie hält. Das war eine bessere Trefferquote, als sie jene Therapeuten hatten, die den Paaren stundenlang gegenübergesessen hatten. Gruselig? "Ich bin optimistisch, was die Zukunft dieser Technologie angeht", sagte Ingenieur Narayanan im vergangenen Frühjahr. "Unsere Stimme transportiert viele Informationen über unseren psychischen Status und unsere Identität. Menschliche Wahrnehmung ist verzerrt, weil wir uns ablenken lassen von Äußerlichkeiten."