Text-to-Speech

Microsoft: Neue KI soll Stimmen mit nur drei Sekunden Audio simulieren

Georg Haas10. Januar 2023, 12:22

Startup Interviewer: Gib uns dein erstes AI Interview

Microsoft arbeitet derzeit an einem neuen Text-to-Speech-KI-Modell namens VALL-E, das die Stimme einer Person genau simulieren soll, wenn es ein nur drei Sekunden langes Audiobeispiel erhält. Sobald die Künstliche Intelligenz eine bestimmte Stimme erlernt hat, soll sie beliebige Audiodaten dieser Person synthetisieren. Dabei soll der emotionale Ton der Sprecher:innen laut Ars Technica erhalten bleiben.

Meta: KI-Tool „Builder Bot“ soll durch Sprachkommandos Metaverse-Welten erstellen

Microsoft nutzt Meta-Technologie für KI

Die Entwickler:innen meinen, dass VALL-E unter anderem für die Sprachbearbeitung oder für die Erstellung von Audioinhalten in Kombination mit anderen KI-Modellen wie GPT-3 dienen könnte. Microsoft hat die Anwendung auf einer Technologie namens EnCodec aufbaut, die Meta im Oktober 2022 angekündigt hat. Im Gegensatz zu anderen Text-to-Speech-Methoden, bei denen Sprache in der Regel durch die Manipulation von Wellenformen entsteht, erzeugt VALL-E Inhalte aus Text und akustischen Aufforderungen.

Das neue Modell soll im Grunde analysieren, wie eine Person klingt, diese Information dank EnCodec in einzelne Komponenten zerlegen und Trainingsdaten nutzen, um abzugleichen, was es darüber „weiß“, wie diese Stimme klingen würde, wenn sie andere Sätze außerhalb des drei Sekunden langen Beispiels sprechen würde. Auch für das Training der KI hat Microsoft eine Meta-Anwendung verwendet, nämlich die Audiobibliothek LibriLight. Sie enthält 60.000 Stunden englischer Sprache von mehr als 7.000 Sprecher:innen. Damit VALL-E ein gutes Ergebnis erzielt, muss die Stimme in der Drei-Sekunden-Probe genau mit einer Stimme aus den Trainingsdaten übereinstimmen.

Microsoft soll 10 Milliarden Dollar in OpenAI investieren wollen

Modell kann Klang von Telefongespräch simulieren

VALL-E soll nicht nur die Klangfarbe und den emotionalen Ton bewahren, sondern auch die „akustische Umgebung“ des Audiobeispiels imitieren. Wenn das Sample beispielsweise von einem Telefongespräch stammt, simuliert die Audioausgabe in der synthetisierten Ausgabe den Klang eines Telefongesprächs. Bei einem so akkuraten Text-to-Speech-Modell liegen Befürchtungen über Betrug und Fake-Inhalte nahe. Die Entwickler:innen von Microsoft wollen das berücksichtigen und den Code von VALL-E nicht zum Experimentieren zur Verfügung stellen.

„Da VALL-E Sprache unter Beibehaltung der Sprecheridentität synthetisieren kann, besteht die Gefahr, dass das Modell missbräuchlich verwendet wird, z. B. um die Stimmerkennung zu fälschen oder sich als ein bestimmter Sprecher auszugeben. Um solche Risiken zu minimieren, ist es möglich, ein Erkennungsmodell zu erstellen, mit dem sich feststellen lässt, ob ein Audioclip von VALL-E stammt“, heißt es von Microsoft.