2

Netzlexikon S wie Spracherkennung

Technische Geräte verstehen immer besser, was man ihnen sagt. Ein Sci-Fi-Traum wird damit wahr. Es gibt aber auch laute Kritik an der automatischen Spracherkennung.

Von: Franziska Schwarz

Stand: 25.02.2015 | Archiv

Netzlexikon S wie Spracherkennung | Bild: BR

Immer mehr technische Geräte haben eine eingebaute automatische Spracherkennung. Dank ihr muss der Nutzer nicht mehr zum Gerät rennen und einen Knopf drücken – er kommandiert es einfach per Sprachbefehl herum. Praktisch ist das zum Beispiel dann, wenn man gerade die Hände nicht frei hat. Viel wichtiger aber: Mithilfe ihrer Stimme können nun auch Menschen Geräte bedienen, die sich wegen einer Krankheit oder nach einem Unfall nur eingeschränkt bewegen können.

Welche Geräte hören denn schon auf unsere Stimme?

Spracherkennung ist längst Teil von vielen Computern und Smartphones, aber auch von CD-Playern, Spielkonsolen und Fernsehern. Auch die Hersteller von Datenbrillen tüfteln an Spracherkennung und Facebook will die Spracherkennung in seine Chat-Funktion einbauen.

Seit wann kann man denn mit seinen Geräten sprechen?

Geforscht wurde zur Spracherkennung bereits in den 1930er Jahren, zum Beispiel in den amerikanischen Bell Labs. Ab den 1969ern beschäftigte Wissenschaftler das Thema dann immer intensiver, unter anderem beim US-Verteidigungsministerium. 1984 stellt IBM dann seine erste Spracherkennungs-Software vor, gut zehn Jahre später kam das sogenannte "IBM Personal Dictation System" in die Geschäfte, Windows bot später "Dragon Naturally Speaking" an und Apple ein Programm namens "iListen".

Wie funktioniert das Ganze?

Ein Computer erkennt Sprache bisher grob gesagt so: Der Sound wird digitalisiert, dann werden die Umgebungsgeräusche - so gut es geht - herausgefiltert, bevor er in seine Frequenzteile zerlegt wird. Der Rechner vergleicht das Ergebnis dann mit abgespeicherten Lauten und prüft unter anderem auch, wie wahrscheinlich bestimmte Wortkombinationen sind. Es gibt "Sprecher-unabhängige" und "Sprecher-abhängige" Sprachsoftware. Bei letzterer kann der Nutzer dem Programm seine persönliche Sprechweise eintrichtern – es merkt sich dann zum Beispiel, ob jemand das "R" rollt oder besonders häufig bestimmte Worte benutzt. 

Der Computer in der Hotline versteht mich aber oft trotzdem nicht!

Undeutliche Aussprache oder Dialekte sind für die Rechner eine Herausforderung. Menschen halten beim natürlichen Sprechen außerdem kaum inne -  anfangs können die Computer die Worte aber nur unterscheiden, wenn künstliche Pausen gemacht werden. Inzwischen kann die Software das Gesprochene immer besser erkennen, auch dann, wenn jemand einfach drauflosredet.

Wird mein ganzes Geplaudere eigentlich irgendwo gespeichert?

Bei der Spracherkennung fallen natürlich auch Daten an. Anfang 2015 gibt es deswegen kurz einige Aufregung um die Datenschutzrichtlinie das Herstellers Samsung. Der Konzern weist die Kunden darauf hin, dass bei seinen internetfähigen Fernsehern die Worte aufgezeichnet und an Drittanbieter übermittelt werden. Manche fürchten nun, dass ihr Fernseher ihre Wohnzimmer-Gespräche belauscht - andere entgegnen, dass das Gerät für die Spracherkennung nun mal mithören muss und man die Funktion ja abschalten kann. Es ist das alte Dilemma: Einerseits freuen wir uns über den Komfort, den die Digitalisierung mit sich bringt, aber unsere Daten wollen wir dafür nicht hergeben.


2