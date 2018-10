Wie wir uns fühlen, wer wir sind und woher wir kommen: Nichts bringt unsere Persönlichkeit so sehr zum Ausdruck wie unsere Stimme. Sie ist das natürlichste und zugleich komplexeste Kommunikationsmittel, über das wir Menschen verfügen. Nur logisch und naheliegend, dass wir längst nicht mehr nur über Maus oder Tastatur mit unseren Computern oder Endgeräten kommunizieren. Das Problem: Damit Spracherkennungssoftware funktionieren kann, muss sie – genau wie wir Anwender auch – lernen.

Und dafür werden gewaltige Mengen von Sprachdaten benötigt. Etwa 10.000 Stunden, also mehr als ein Jahr gesprochene Sätze, braucht es für die richtige Qualität. Doch die großen Anbieter, die zum Beispiel über Smart-Speaker-Daten generieren, halten ihre Datenschätze streng unter Verschluss oder verlangen hohe Lizenzgebühren. Das bremst Innovation und beschränkt die Entwicklung von Sprachsteuerung auf wenige große Unternehmen.

Um die Spielregeln für die Zukunft der Spracherkennung neu und gerechter zu definieren, hat Mozilla "Common Voice" ins Leben gerufen. Eine Sprachdatenbank, zu der buchstäblich jeder seine Stimme beisteuern und so dabei helfen kann, Spracherkennung für jeden zu verbessern, unabhängig von Geschlecht, Alter, Sprache oder Dialekt.

750.000 Sprachaufnahmen von 34.000 Freiwilligen

34.000 Freiwillige weltweit haben bereits in mehr als 750.000 Aufnahmen ihre Stimme gespendet. Während der ersten sechs Monate sind so 500 Stunden an englischen Sprachaufnahmen zusammengekommen, die Ende 2017 veröffentlicht und der Allgemeinheit zur Verfügung gestellt wurden. Heute umfasst die Datensammlung schon doppelt so viele Stunden, und täglich zeichnen überall auf der Welt Menschen ihre Stimme auf oder überprüfen bereits eingesprochene Sätze. Mit diesen Abertausend unterschiedlichen Stimmen und Sprechweisen der Freiwilligen fließen auch Akzente und Dialekte viel stärker in die Spracherkennung ein, als es bislang der Fall war. Damit in Zukunft Menschen jedweder Herkunft mit Computern oder smarten Geräten sprechen können – und von ihnen verstanden werden.

Seit Mitte 2018 ist Common Voice mehrsprachig verfügbar. Denn die "Weltsprache Englisch" ist nur der Anfang: In bisher 15 Sprachen – darunter auch Deutsch – werden bereits Sprachdaten gesammelt, mehr als 60 weitere Sprachen sind in Arbeit. Nicht nur weitverbreitete wie Russisch, Chinesisch oder Spanisch, sondern auch kleinere Sprachen wie Friesisch, Norwegisch oder die Turksprache Tschuwaschisch. Solche Sprachen mit einem vergleichsweise kleinen Verbreitungsgebiet werden von kommerziellen Spracherkennungsdiensten oft vernachlässigt. Wenn diese Daten jedoch erst mal verfügbar sind, können Unternehmen, Start-ups und Communities diese Lücke selbst schließen.



Mehr als ein "nettes Gimmick"

Für die meisten von uns ist Spracherkennung praktisch, wenn wir gerade die Hände voll haben oder zu faul sind zum Tippen. Was wir dabei übersehen, ist, wie sprachaktivierte Technologie auch denjenigen Menschen einen Zugang zu Informationen eröffnen kann, denen er bislang erschwert war: Sehbehinderten, Senioren, Kindern oder auch Menschen, die nie lesen gelernt haben. "Es gibt unendlich viele Möglichkeiten, bei denen diese Technologie nützlich sein kann – von Assistenzsystemen in Autos bis zum Smart Home", sagt Kelly Davis, der den Bereich "Machine Learning" bei Mozilla betreut. Er leitet auch die Entwicklung von Mozillas eigener Spracherkennungssoftware, das Projekt "Deep Speech": offen für jeden und – trainiert durch die "Common Voice"-Daten – in potenziell jeder Sprache.

"Mir gefällt zum Beispiel der Gedanke, dass unsere Arbeit dazu beitragen kann, dass alte Menschen länger selbstständig zu Hause leben können", so Davis. "Oder dass wir mittels Sprachsynthese der Medizin helfen können, wenn Menschen durch Unfälle oder Krankheit ihre Stimme verloren haben. Auch Universitäten und akademische Einrichtungen können mit der Datensammlung wichtige Forschung vorantreiben. Mit Deep Speech und Common Voice können zahlreiche Sprachen, Akzente und innovative Projekte durch die Communities dahinter unterstützt werden, ohne dass ihre Wirtschaftskraft eine Rolle spielt. Wir stellen das Werkzeug zur Verfügung – alles, was es sonst braucht, ist der Wille der Nutzer."

JEDER kann helfen

Ein technisches Hintergrundwissen ist nicht erforderlich, um Common Voice zu helfen. Alles, was es braucht, ist ein Mobiltelefon oder ein Computer. Ob zu Hause, im Bus oder in der Mittagspause: einfach auf voice.mozilla.org gehen und Sätze ins Mikrofon einlesen oder die Aufnahmen anderer überprüfen. Dieser Crowdsourcing-Ansatz kann viel mehr bewegen, als ein einzelner Akteur erreichen könnte. Und am Ende profitiert auch kein einzelnes Unternehmen von dieser globalen Ressource, sondern wir alle.





Zurück zur Übersicht