„Computer, kannst du mich hören?“

Im IT-Zentrum Oberschneiding trafen sich kürzlich IT-Firmen aus dem Landkreis und dem Bereich Niederbayern um Trends und Techniken im Bereich Mensch-Computer-Interaktion zu erörtern und zu diskutieren. Vom Lehrstuhl für Informationswissenschaften der Universität Regensburg konnte an diesem Abend Prof. Dr. Hitzenberger als Referent gewonnen werden, der diverse Möglichkeiten der Spracherkennung durch Computer aufzeigte.

Die Sprache ist die natürlichste Weise für Menschen zu kommunizieren. Jedoch ist die Spracherkennung für den Computer ein sehr komplizierter Prozess, der mit statistischen Methoden unterstützt wird.

In Bereichen mit einem klar umrissenen Wortschatz – z.B. Bedienung im Auto, Anrufsteuerungen bei Hotline – hat die Spracheingabe einen festen Platz. Neben der Spracherkennung ist für diese Systeme auch ein durchdachter Dialog wichtig, damit der Nutzer sein gewünschtes Ergebnis erhält.

Bei freier Eingabe von Texten ist das System gefordert, umfangreiche Lautkombinationen in Wörter umzusetzen. Dabei kann der Wortschatz mehrere hunderttausend Wörter umfassen. Vor allem bei der Erstellung medizinischer Berichte oder Anwaltsschreiben gibt es sehr gute Lösungen, die auf den Rechnern vor Ort funktionieren. Um zuverlässig die Wörter zu erkennen, müssen solche Programme das Sprachverhalten des Nutzers erlernen.

Mit der Lösung von Apple – SIRI – oder der Spracheingabe in Google scheint sich die Spracheingabe vermehrt durchzusetzen. So attestierten die Teilnehmer, dass das Diktieren und Senden von E-Mails mit SIRI sehr gut funktioniere. Die Rechenleistung bei SIRI oder Google ist aber nicht auf dem lokalen Gerät, sondern im Netz auf zentralen Servern mit umfangreichem Datenschatz gespeichert.
Laut Prof. Hitzenberger werden die Möglichkeiten der statistischen Spracherkennung permanent optimiert. So werden zum Beispiel weitere Erkennungsoptionen – wie Lippenlesen oder Erkennung von Textinhalten – hinzugefügt. Zusätzlich müssen auch menschliche Verhaltensmuster und vermehrt Fehlertoleranzen angepasst werden, da auch diese starken Einfluss auf die Spracherkennung haben. Trotzt der vielen Optimierungsmöglichkeiten waren sich die Teilnehmer einig: Die Spracheingabe wird einen festen Platz neben Tastatur und Maus erhalten.

Text: Claudia Anzinger

Skip to content