OpenAI: Neue Audio-Modelle sollen Google und ElevenLabs auf Abstand halten

Sie streben nach AGI, wollen den Audio-Markt aber nicht anderen überlassen: OpenAI hat jetzt neue AI-Modelle speziell für die Verarbeitung von Sprache und Stimmen in In- und Output vorgestellt. Sie bieten mehrfältige Möglichkeiten: Zum einen geht es im Text-to-Speech-Bereich darum, Texte von AI-Stimmen vorlesen zu lassen – etwa, um Podcasts zu erstellen.
Zudem gibt es einen Speech-to-Text-Modus für Transkriptionen, und natürlich eine Möglichkeit für Streaming, um die Sprachmodelle auch in Echtzeit sprechen bzw. antworten lassen zu können – das ist dann notwendig, wenn man etwa Telefon-Hotlines mit KI-Sprechern ausstatten möchte. Bisher waren die Audio-Modelle von OpenAI unter der Marke „Whisper“ bekannt. Diese Benennung wird nun offenbar fallen gelassen.
„Zum ersten Mal können Entwickler das Text-to-Speech-Modell auch anweisen, auf eine bestimmte Art und Weise zu sprechen, z. B. „spreche wie ein sympathischer Kundendienstmitarbeiter“, was eine neue Stufe der Anpassung für Sprachagenten eröffnet. Dies ermöglicht eine breite Palette von maßgeschneiderten Anwendungen, von einfühlsamen und dynamischen Kundendienststimmen bis hin zu ausdrucksstarken Erzählungen für kreative Geschichten“, heißt es seitens OpenAI.
Kompetitiver Audio-Markt
Wer die neuen Audio-Modelle ausprobieren möchte, kann dies auf der neuen Webseite www.openai.fm tun. Möglich ist dort, einen Text (u.a. auch Deutsch) von unterschiedlichen Stimmen vorlesen zu lassen. Für längere Texte braucht es dann aber schließlich API-Anbindung, die natürlich etwas kostet.
OpenAI reagiert damit eindeutig auf Marktentwicklungen bei den Mitbewerbern Google und ElevenLabs. Google hat seine beliebte Podcast-Funktion, die bisher bei NotebookLM auszuprobieren war, auch via API im Angebot. ElevenLabs, ein Startup mit Wurzeln in Polen, hat zuletzt mit „Scribe“ ein Speech-to-Text-Modell auf den Markt gebracht (Trending Topics berichtete).
ElevenLabs: Neues Speech-to-Text-Modell „Scribe“ fordert Google und OpenAI