ChatGPT: Advanced Voice Mode wird ausgerollt – ohne geklonte Stimmen
Vor einigen Monaten hat OpenAI den Advanced Voice Mode für ChatGPT vorgestellt, und nun dürfen erste Nutzer:innen das Feature ausprobieren. Der Advanced Voice Mode verspricht eine flüssigere und menschlichere Echtzeitinteraktion mit ChatGPT. Die auf GPT-4.0 basierende Funktion wird derzeit aber nur exklusiv an einige ChatGPT-Plus-Nutzer:innen verteilt.
OpenAI geht hierbei sehr selektiv vor: Nur ausgewählte User:innen erhalten eine Benachrichtigung per E-Mail und App, die auch eine Anleitung zur Nutzung des neuen Sprachmodus enthält. Wer bisher noch keine Einladung bekommen hat, muss sich noch etwas gedulden. OpenAI plant, in den kommenden Wochen und Monaten schrittweise mehr Nutzer:innen in die Testphase einzubeziehen. Der vollständige Rollout soll bis Herbst 2024 abgeschlossen sein, sodass alle Plus-Abonnent:innen dann Zugang haben werden.
Neue Funktionen und Sicherheitsmaßnahmen
Der Advanced Voice Mode verspricht eine flüssigere und menschlichere Echtzeitinteraktion mit ChatGPT. Im Vergleich zum aktuellen Sprachmodus wird die Umwandlung von Sprache in Text und zurück überflüssig, was zu geringeren Verzögerungen führt. Zudem soll die KI jetzt auf Emotionen wie Humor und Sarkasmus reagieren können. Besonders bemerkenswert ist, dass Gespräche in Echtzeit erfolgen und Unterbrechungen ohne Abbruch der Kommunikation möglich sind.
Die Veröffentlichung der neuen Sprachausgabe hat bereits im Vorfeld Kontroversen ausgelöst. Die weibliche Stimme „Sky“ ähnelte stark der von Schauspielerin Scarlett Johansson, bekannt aus dem Film „Her“. Johansson hatte ein Angebot von OpenAI-CEO Sam Altman, die Stimme von ChatGPT 4.0 zu werden, abgelehnt. Nachdem die Stimme trotzdem verwendet wurde, leitete Johansson rechtliche Schritte ein und forderte die Entfernung der Stimme (wir haben berichtet). OpenAI kam dieser Aufforderung nach und führte Maßnahmen ein, um Promi-Imitationen zu verhindern.
OpenAI-Sprecherin Taya Christianson sagt: „Wir haben dafür gesorgt, dass ChatGPT die Stimmen anderer Menschen, sowohl von Privatpersonen als auch von öffentlichen Personen, nicht imitieren kann und Ausgaben blockiert werden, die von einer dieser voreingestellten Stimmen abweichen.“ Der Sprachmodus verwendet nun vier voreingestellte Stimmen und blockiert Ausgaben, die davon abweichen. Außerdem wurden Schutzmechanismen gegen gewalttätige und urheberrechtlich geschützte Inhalte integriert.
Advanced Voice Mode: 45 Sprachen und AI Search
Nach dem Start des Voice Mode im Herbst 2023 und wurde der Advanced Mode erstmals auf dem GPT-4.o-Launch-Event im Mai vorgestellt. Hier zeigte er sich bereits als deutlich leistungsfähiger. OpenAI-Mitarbeiter:innen auf der Bühne konnten den Chatbot unterbrechen und flexibel Geschichten variieren lassen.
Der Advanced Mode sollte ursprünglich im Juni in der Alphaversion erscheinen, wurde aber um einen Monat verschoben, um Qualitätsstandards zu erfüllen. Dabei verbesserte OpenAI die Fähigkeit des Modells, bestimmte Inhalte zu erkennen und abzulehnen. In Tests wurden über 45 Sprachen berücksichtigt, um sicherzustellen, dass die Funktion weltweit reibungslos funktioniert.
Zusätzlich zur Weiterentwicklung des Voice Mode testet OpenAI derzeit eine eigene AI Search, die eine ernsthafte Konkurrenz für etablierte Suchmaschinen wie Google und Bing darstellen könnte. Anfang August wird OpenAI einen Bericht veröffentlichen, der die Fähigkeiten und Herausforderungen des KI-Modells GPT-4.0 sowie erste Erkenntnisse aus den Tests des Advanced Voice Mode beleuchtet.
Dass der erweiterte Sprachmodus ausschließlich zahlenden Kund:innen vorbehalten ist, könnte OpenAI neue Abonnent:innen gewinnen und damit dringend benötigte Einnahmen generieren (wir haben berichtet).
We’re starting to roll out advanced Voice Mode to a small group of ChatGPT Plus users. Advanced Voice Mode offers more natural, real-time conversations, allows you to interrupt anytime, and senses and responds to your emotions. pic.twitter.com/64O94EhhXK
— OpenAI (@OpenAI) July 30, 2024