Text-to-Speech

Microsoft: Neue KI soll Stimmen mit nur drei Sekunden Audio simulieren

© geralt on Pixabay
© geralt on Pixabay
Startup Interviewer: Gib uns dein erstes AI Interview Startup Interviewer: Gib uns dein erstes AI Interview

Microsoft arbeitet derzeit an einem neuen Text-to-Speech-KI-Modell namens VALL-E, das die Stimme einer Person genau simulieren soll, wenn es ein nur drei Sekunden langes Audiobeispiel erhält. Sobald die Künstliche Intelligenz eine bestimmte Stimme erlernt hat, soll sie beliebige Audiodaten dieser Person synthetisieren. Dabei soll der emotionale Ton der Sprecher:innen laut Ars Technica erhalten bleiben.

Meta: KI-Tool „Builder Bot“ soll durch Sprachkommandos Metaverse-Welten erstellen

Microsoft nutzt Meta-Technologie für KI

Die Entwickler:innen meinen, dass VALL-E unter anderem für die Sprachbearbeitung oder für die Erstellung von Audioinhalten in Kombination mit anderen KI-Modellen wie GPT-3 dienen könnte. Microsoft hat die Anwendung auf einer Technologie namens EnCodec aufbaut, die Meta im Oktober 2022 angekündigt hat. Im Gegensatz zu anderen Text-to-Speech-Methoden, bei denen Sprache in der Regel durch die Manipulation von Wellenformen entsteht, erzeugt VALL-E Inhalte aus Text und akustischen Aufforderungen.

Das neue Modell soll im Grunde analysieren, wie eine Person klingt, diese Information dank EnCodec in einzelne Komponenten zerlegen und Trainingsdaten nutzen, um abzugleichen, was es darüber „weiß“, wie diese Stimme klingen würde, wenn sie andere Sätze außerhalb des drei Sekunden langen Beispiels sprechen würde. Auch für das Training der KI hat Microsoft eine Meta-Anwendung verwendet, nämlich die Audiobibliothek LibriLight. Sie enthält 60.000 Stunden englischer Sprache von mehr als 7.000 Sprecher:innen. Damit VALL-E ein gutes Ergebnis erzielt, muss die Stimme in der Drei-Sekunden-Probe genau mit einer Stimme aus den Trainingsdaten übereinstimmen.

Microsoft soll 10 Milliarden Dollar in OpenAI investieren wollen

Modell kann Klang von Telefongespräch simulieren

VALL-E soll nicht nur die Klangfarbe und den emotionalen Ton bewahren, sondern auch die „akustische Umgebung“ des Audiobeispiels imitieren. Wenn das Sample beispielsweise von einem Telefongespräch stammt, simuliert die Audioausgabe in der synthetisierten Ausgabe den Klang eines Telefongesprächs. Bei einem so akkuraten Text-to-Speech-Modell liegen Befürchtungen über Betrug und Fake-Inhalte nahe. Die Entwickler:innen von Microsoft wollen das berücksichtigen und den Code von VALL-E nicht zum Experimentieren zur Verfügung stellen.

„Da VALL-E Sprache unter Beibehaltung der Sprecheridentität synthetisieren kann, besteht die Gefahr, dass das Modell missbräuchlich verwendet wird, z. B. um die Stimmerkennung zu fälschen oder sich als ein bestimmter Sprecher auszugeben. Um solche Risiken zu minimieren, ist es möglich, ein Erkennungsmodell zu erstellen, mit dem sich feststellen lässt, ob ein Audioclip von VALL-E stammt“, heißt es von Microsoft.

Werbung
Werbung

Specials unserer Partner

Die besten Artikel in unserem Netzwerk

Deep Dives

#glaubandich CHALLENGE Hochformat.

#glaubandich CHALLENGE 2025

Österreichs größter Startup-Wettbewerb - 13 Top-Investoren mit an Bord
© Wiener Börse

IPO Spotlight

powered by Wiener Börse

Austrian Startup Investment Tracker

Die Finanzierungsrunden 2024

Trending Topics Tech Talk

Der Podcast mit smarten Köpfen für smarte Köpfe

2 Minuten 2 Millionen | Staffel 11

Die Startups - die Investoren - die Deals - die Hintergründe

The Top 101

Die besten Startups & Scale-ups Österreichs im großen Voting

BOLD Community

Podcast-Gespräche mit den BOLD Minds

IPO Success Stories

Der Weg an die Wiener Börse

Weiterlesen