Gelauncht

OpenAI: Neue Audio-Modelle sollen Google und ElevenLabs auf Abstand halten

OpenAI.fm. © OpenAI / Canva Pro
OpenAI.fm. © OpenAI / Canva Pro
Startup Interviewer: Gib uns dein erstes AI Interview Startup Interviewer: Gib uns dein erstes AI Interview

Sie streben nach AGI, wollen den Audio-Markt aber nicht anderen überlassen: OpenAI hat jetzt neue AI-Modelle speziell für die Verarbeitung von Sprache und Stimmen in In- und Output vorgestellt. Sie bieten mehrfältige Möglichkeiten: Zum einen geht es im Text-to-Speech-Bereich darum, Texte von AI-Stimmen vorlesen zu lassen – etwa, um Podcasts zu erstellen.

Zudem gibt es einen Speech-to-Text-Modus für Transkriptionen, und natürlich eine Möglichkeit für Streaming, um die Sprachmodelle auch in Echtzeit sprechen bzw. antworten lassen zu können – das ist dann notwendig, wenn man etwa Telefon-Hotlines mit KI-Sprechern ausstatten möchte. Bisher waren die Audio-Modelle von OpenAI unter der Marke „Whisper“ bekannt. Diese Benennung wird nun offenbar fallen gelassen.

„Zum ersten Mal können Entwickler das Text-to-Speech-Modell auch anweisen, auf eine bestimmte Art und Weise zu sprechen, z. B. „spreche wie ein sympathischer Kundendienstmitarbeiter“, was eine neue Stufe der Anpassung für Sprachagenten eröffnet. Dies ermöglicht eine breite Palette von maßgeschneiderten Anwendungen, von einfühlsamen und dynamischen Kundendienststimmen bis hin zu ausdrucksstarken Erzählungen für kreative Geschichten“, heißt es seitens OpenAI.

Kompetitiver Audio-Markt

Wer die neuen Audio-Modelle ausprobieren möchte, kann dies auf der neuen Webseite www.openai.fm tun. Möglich ist dort, einen Text (u.a. auch Deutsch) von unterschiedlichen Stimmen vorlesen zu lassen. Für längere Texte braucht es dann aber schließlich API-Anbindung, die natürlich etwas kostet.

OpenAI reagiert damit eindeutig auf Marktentwicklungen bei den Mitbewerbern Google und ElevenLabs. Google hat seine beliebte Podcast-Funktion, die bisher bei NotebookLM auszuprobieren war, auch via API im Angebot. ElevenLabs, ein Startup mit Wurzeln in Polen, hat zuletzt mit „Scribe“ ein Speech-to-Text-Modell auf den Markt gebracht (Trending Topics berichtete).

ElevenLabs: Neues Speech-to-Text-Modell „Scribe“ fordert Google und OpenAI

Werbung
Werbung

Specials unserer Partner

Die besten Artikel in unserem Netzwerk

Powered by Dieser Preis-Ticker beinhaltet Affiliate-Links zu Bitpanda.

Deep Dives

Startup & Scale-up Investment Tracker 2025

Die größten Finanzierungsrunden des Jahres im Überblick
#glaubandich CHALLENGE Hochformat.

#glaubandich CHALLENGE 2025

Österreichs größter Startup-Wettbewerb - 13 Top-Investoren mit an Bord
© Wiener Börse

IPO Spotlight

powered by Wiener Börse

Trending Topics Tech Talk

Der Podcast mit smarten Köpfen für smarte Köpfe
Die 2 Minuten 2 Millionen Investoren. © PULS 4 / Gerry Frank

2 Minuten 2 Millionen | Staffel 12

Die Startups - die Investoren - die Deals - die Hintergründe

BOLD Community

Podcast-Gespräche mit den BOLD Minds

IPO Success Stories

Der Weg an die Wiener Börse

Weiterlesen