Automatic Speech Recognition

TU Graz entwickelt Spracherkennung für österreichische Dialekte

Julia Isabelle Gerber12. Dezember 2024, 11:14

“Durch die Analyse von Mensch-Mensch-Kommunikation haben wir wichtige Erkenntnisse erreicht, die uns auch technisch weiterhelfen und neue Anwendungsbereiche aufmachen“, so Barbara Schuppler von der TU Graz. © Canva

Startup Interviewer: Gib uns dein erstes AI Interview

Gängige Spracherkennungssysteme haben oft Schwierigkeiten, lokale Dialekte zu verstehen. Das haben Forschende der TU Graz zum Anlass genommen, den „Graz Corpus of Read and Spontaneous Speech“ zu entwickeln. Es handelt sich dabei um eine neue Methode zur maschinellen Erkennung von gesprochenem österreichischen Deutsch.

Automatic Speech Recognition – zugeschnitten auf Österreichisch

Anbieter von KI-Spracherkennungssoftware gibt es mittlerweile wie Sand am Meer. Dabei besteht jedoch oft das Problem, dass die Systeme regional gefärbte Wortwahl und Aussprache nicht richtig erkennen oder deuten können. Konversationssprache ist nun mal komplex. Barbara Schuppler vom Institut für Signalverarbeitung und Sprachkommunikation der TU Graz und ein Team aus Forschenden haben deshalb aus Sprachdaten von 38 Personen eine neue Methode zur maschinellen Erkennung von gesprochenem österreichischen Deutsch entwickelt.

Das Ziel des Projekts war es, die Genauigkeit der Automatic Speech Recognition (ASR) in spontanen Konversationen im österreichischen Dialekt zu verbessern. Dafür wurde eine Datenbank mit Aufnahmen von Konversationen der 38 Sprechenden aufgebaut. Die sogenannte GRASS-Datenbank (Graz Corpus of Read and Spontaneous Speech) enthält laut der TU Graz Aufnahmen von gelesenen Texten und frei gesprochenen, spontanen Gesprächen.

Hybride ASR-Architekturen

Das Forschungsteam hat verschiedene ASR-Architekturen verglichen: die lang etablierten HMM-Modelle (Hidden-Markov-Modelle) und die neueren Transformer-basierten Modelle wie zum Beispiel das Spracherkennungssystem Whisper. Während Whisper bei längeren Sätzen mit viel Kontext sehr gut funktioniert, hat es bei kurzen, fragmentarischen Sätzen Verständnisprobleme. Die traditionellen HMM-basierten Systeme hingegen haben sich bei kurzen Sätzen und Dialektsprache als robuster erwiesen.

So wurde ein hybrider Systemansatz verfolgt, der beide Architekturen kombiniert: ein Transformer-Modell mit einem wissensbasierten Lexikon und einem statistischen Sprachmodell. Damit ließen sich „signifikante Verbesserungen“ erzielen, so die TU Graz.

Einsatz in der medizinischen Diagnostik möglich

Für die Ergebnisse des Projekts gibt es spannende Anwendungsmöglichkeiten in der Praxis, etwa in der medizinischen Diagnostik oder im Bereich der Mensch-Computer-Interaktion. Als Beispiel wird eine Unterhaltung zwischen einem Arzt und einem Patienten genannt: ASR-Systeme könnten künftig Anzeichen von Demenz oder Epilepsie anhand von Sprachmustern in spontanen Gesprächen erkennen. Auch könnte die Interaktion mit sozialen Robotern natürlicher gestaltet werden.

„Gemeinsam mit Partnern von der PMU Salzburg, Med Uni Graz und der Med Uni Wien arbeiten wir bereits an Folgeprojekten, um auf Basis der Grundlagen, die wir im FWF-Projekt geschaffen haben, gesellschaftsrelevante Anwendungsmöglichkeiten zu schaffen“, so Schuppler. Das fünfjährige Forschungsprojekt wurde vom Österreichischen Wissenschaftsfonds FWF gefördert.