Automatic Speech Recognition

TU Graz entwickelt Spracherkennung für österreichische Dialekte

“Durch die Analyse von Mensch-Mensch-Kommunikation haben wir wichtige Erkenntnisse erreicht, die uns auch technisch weiterhelfen und neue Anwendungsbereiche aufmachen“, so Barbara Schuppler von der TU Graz. © Canva
“Durch die Analyse von Mensch-Mensch-Kommunikation haben wir wichtige Erkenntnisse erreicht, die uns auch technisch weiterhelfen und neue Anwendungsbereiche aufmachen“, so Barbara Schuppler von der TU Graz. © Canva
Startup Interviewer: Gib uns dein erstes AI Interview Startup Interviewer: Gib uns dein erstes AI Interview

Gängige Spracherkennungssysteme haben oft Schwierigkeiten, lokale Dialekte zu verstehen. Das haben Forschende der TU Graz zum Anlass genommen, den „Graz Corpus of Read and Spontaneous Speech“ zu entwickeln. Es handelt sich dabei um eine neue Methode zur maschinellen Erkennung von gesprochenem österreichischen Deutsch.

Automatic Speech Recognition – zugeschnitten auf Österreichisch

Anbieter von KI-Spracherkennungssoftware gibt es mittlerweile wie Sand am Meer. Dabei besteht jedoch oft das Problem, dass die Systeme regional gefärbte Wortwahl und Aussprache nicht richtig erkennen oder deuten können. Konversationssprache ist nun mal komplex. Barbara Schuppler vom Institut für Signalverarbeitung und Sprachkommunikation der TU Graz und ein Team aus Forschenden haben deshalb aus Sprachdaten von 38 Personen eine neue Methode zur maschinellen Erkennung von gesprochenem österreichischen Deutsch entwickelt.

Das Ziel des Projekts war es, die Genauigkeit der Automatic Speech Recognition (ASR) in spontanen Konversationen im österreichischen Dialekt zu verbessern. Dafür wurde eine Datenbank mit Aufnahmen von Konversationen der 38 Sprechenden aufgebaut. Die sogenannte GRASS-Datenbank (Graz Corpus of Read and Spontaneous Speech) enthält laut der TU Graz Aufnahmen von gelesenen Texten und frei gesprochenen, spontanen Gesprächen.

Hybride ASR-Architekturen

Das Forschungsteam hat verschiedene ASR-Architekturen verglichen: die lang etablierten HMM-Modelle (Hidden-Markov-Modelle) und die neueren Transformer-basierten Modelle wie zum Beispiel das Spracherkennungssystem Whisper. Während Whisper bei längeren Sätzen mit viel Kontext sehr gut funktioniert, hat es bei kurzen, fragmentarischen Sätzen Verständnisprobleme. Die traditionellen HMM-basierten Systeme hingegen haben sich bei kurzen Sätzen und Dialektsprache als robuster erwiesen.

So wurde ein hybrider Systemansatz verfolgt, der beide Architekturen kombiniert: ein Transformer-Modell mit einem wissensbasierten Lexikon und einem statistischen Sprachmodell. Damit ließen sich „signifikante Verbesserungen“ erzielen, so die TU Graz.

Einsatz in der medizinischen Diagnostik möglich

Für die Ergebnisse des Projekts gibt es spannende Anwendungsmöglichkeiten in der Praxis, etwa in der medizinischen Diagnostik oder im Bereich der Mensch-Computer-Interaktion. Als Beispiel wird eine Unterhaltung zwischen einem Arzt und einem Patienten genannt: ASR-Systeme könnten künftig Anzeichen von Demenz oder Epilepsie anhand von Sprachmustern in spontanen Gesprächen erkennen. Auch könnte die Interaktion mit sozialen Robotern natürlicher gestaltet werden.

„Gemeinsam mit Partnern von der PMU Salzburg, Med Uni Graz und der Med Uni Wien arbeiten wir bereits an Folgeprojekten, um auf Basis der Grundlagen, die wir im FWF-Projekt geschaffen haben, gesellschaftsrelevante Anwendungsmöglichkeiten zu schaffen“, so Schuppler. Das fünfjährige Forschungsprojekt wurde vom Österreichischen Wissenschaftsfonds FWF gefördert.

AI Melange ☕️ mit ASFINAG-CIO Bernd Datler über KI auf der Autobahn

Werbung
Werbung

Specials unserer Partner

Die besten Artikel in unserem Netzwerk

Deep Dives

#glaubandich CHALLENGE Hochformat.

#glaubandich CHALLENGE 2025

Österreichs größter Startup-Wettbewerb - 13 Top-Investoren mit an Bord
© Wiener Börse

IPO Spotlight

powered by Wiener Börse

Austrian Startup Investment Tracker

Die Finanzierungsrunden 2024

Trending Topics Tech Talk

Der Podcast mit smarten Köpfen für smarte Köpfe

2 Minuten 2 Millionen | Staffel 11

Die Startups - die Investoren - die Deals - die Hintergründe

The Top 101

Die besten Startups & Scale-ups Österreichs im großen Voting

BOLD Community

Podcast-Gespräche mit den BOLD Minds

IPO Success Stories

Der Weg an die Wiener Börse

Weiterlesen