Voice Engine

OpenAI ist Veröffentlichung von Stimmen-Klon-Tool im Superwahljahr zu gefährlich

Jakob Steinschaden02. April 2024, 09:33

Bearbeitung von Tonspuren. © Kelly Sikkema auf Unsplash — EDITING AUDIO TRACKS. © KELLY SIKKEMA ON UNSPLASH

Startup Interviewer: Gib uns dein erstes AI Interview

Sie könnten ja, wenn sie wollten: OpenAI, weltberühmter Macher von ChatGPT, hat neben GPT-4 eine ganze Reihe an weiteren AI-Modellen entwickelt, die in alle Bereichen von Content spielen. Eines davon ist Voice Engine, das zur Erstellung von künstlichen Stimmen genutzt werden kann. Voice Engine verwendet laut OpenAI Texteingaben und ein einzelnes 15-Sekunden-Audiobeispiel, um natürlich klingende Sprache zu erzeugen, die dem Originalsprecher sehr ähnlich ist. Es sei ein nur kleines Modell, dass ohne viele Daten „gefühlvolle und realistische Stimmen“ erzeugen könne.

OpenAI ist mit solchen Tools natürlich nicht alleine. Eine ganze Reihe an Startups wie Synthesia, Murf AI, Play.ht oder ElevenLabs bietet in der einen oder anderen Form ebenfals die Generierung von synthetischen Stimmen an. Das AI-Unternehmen rund um Sam Altman, das als Marktführer natürlich unter besonderer Beobachtung steht, hat nun aber von einer großen Veröffentlichung von der bereits 2022 entwickelten Voice Engine abgesehen. Man hat lediglich einer Handvoll Partnern unter bestimmten Voraussetzungen ermöglicht, die Klon-Stimmen zu benutzen.

„Wir sind uns bewusst, dass die Erzeugung von Sprache, die den Stimmen der Menschen ähnelt, ernsthafte Risiken birgt, die in einem Wahljahr besonders ins Gewicht fallen. Wir arbeiten mit US-amerikanischen und internationalen Partnern aus den Bereichen Regierung, Medien, Unterhaltung, Bildung, Zivilgesellschaft und darüber hinaus zusammen, um sicherzustellen, dass wir ihr Feedback bei der Entwicklung einbeziehen“, heißt es seitens OpenAI. „Wir sind der Meinung, dass jeder breite Einsatz von synthetischer Sprachtechnologie mit einer Authentifizierung der Stimme einhergehen sollte, die sicherstellt, dass der ursprüngliche Sprecher seine Stimme bewusst zu dem Dienst hinzufügt, sowie mit einer No-Go-Stimmenliste, die die Erstellung von Stimmen, die prominenten Personen zu ähnlich sind, erkennt und verhindert.“

Startup-AI rechnet indische Akzente in US-amerikanische Stimmen um

Nur ausgewählte Partner dürfen Voice Engine nutzen

Die Partner, die Voice Engine aktuell testen würden, hätten Nutzungsrichtlinien zugestimmt, die es verbieten, sich ohne Zustimmung oder gesetzliche Erlaubnis als eine andere Person oder Organisation auszugeben. Sie müssen außerdem „die ausdrückliche und informierte Zustimmung des ursprünglichen Sprechers“, dessen Stimme synthetisiert wird, einholen.Außerdem müssen die Zuhörer:innen darauf hingewiesen werden, dass die Stimmen, die sie hören, von KI generiert wurden. Außerdem sollen durch Maschinen erkennbare Audio-Wasserzeichen dafür sorgen, dass von Voice Engine erzeugten Audiodaten zurückverfolgen werden können.

Betrugsmöglichkeiten mit gefälschten Stimmen wie etwa Anrufe oder Interviews mit bekannten Persönlichkeiten gibt es natürlich zahlreiche. Bevor AI-Stimmen breitere Verwendung finden, sollten etwa die stimmgestützte Authentifizierung als Sicherheitsmaßnahme für den Zugriff auf Bankkonten und andere sensible Informationen abgeschafft werden, heißt es seitens OpenAI.

In Pakistan fanden bereits AI-Videos im Wahlkampf ihren Einsatz. Sie könnten dabei geholfen haben, dass die Oppositionspartei PTI des inhaftierten Ex-Premier Pakistans, Imran Khan, die Wahl gewonnen hat. Khan wurde es so möglich gemacht, Wahlkampf hinter Gittern ohne Auftrittsmöglichkeit zu machen. Bekannt ist auch, dass etwa ein Ehepaar in den USA gefälschte Anrufe von Verwandten, die als Geiseln gehalten worden sein sollen, bekam. Das zeigt, dass AI-Technologien zum Klonen von Stimmen bereits weltweit im Einsatz sind – OpenAI wäre eine weitere, aber eben sehr bekannte Firma, die solche Tools zur Verfügung stellt.