ChatGPT stellt mit Echtzeit-Stimme Siri, Google Assistant und Alexa in den Schatten
Das Timing ist natürlich ein Interessantes: Ein Tag, bevor Google auf seiner alljährlichen I/O-Konferenz viele große Neuigkeiten quer durch sein Produkt-Portfolio (AI, Gemini, Search, Android, YouTube, Cloud usw.) bekannt geben wird, betritt am Montag Abend Sam Altman die Bühne. Als CEO von OpenAI hat er sich im vergangenen Jahr zum Gesicht des vielleicht größten Google-Herausforderers des letzten Jahrzehnts aufgeschwungen, dem nachgesagt wird, bald einen Angriff aufs Kerngeschäft von Google – die Suchmaschine – vorzunehmen.
Doch das große Update in Richtung GPT-5 oder einer eigenen Suchmaschine bleibt an diesem Montag, trotz großer Erwartungen, aus. stattdessen launcht OpenAI sein neues Flaggschiff-Modell GPT-4o (<= das ist ein „O“, kein Nuller). Es soll viel schneller als sein Vorgänger sein, und zwar über alle seine multimodalen Fähigkeiten (Sehen, Hören, Sprechen usw.). Bisher seien für die Sprachfunktion drei Modelle (Transkription, Daten-Intelligenz und dann Text to Speech) notwendig gewesen, und das hätte für viel Latenz gesorgt, so OpenAI-CTO Mira Murati. Das würde sich mit GPT-4o ändern, das Sprechen mit ChatGPT würde nun „omnimodal“ und somit viel schneller und besser funktionieren.
In Demos zeigten OpenAI-Entwickler:innen wie gut das Sprechen mit ChatGPT über ein Smartphone bereits funktioniert. Der AI-Assistent reagiert wirklich sehr schnell, was direkte Konversationen sehr reibungslos gestalten kann. Außerdem kann ChatGPT mittlerweile auch Emotionen des Sprechers erkennen (auch auf einem Foto) und in unterschiedlichen Stimmungen (singend, lustig, trocken, Roboter-artig) zurück reden. Neben ChatGPT, in dem nun GPT-4o werkt, wirken aktuelle Versionen von Apples Siri, Googles Assistant oder Amazons Alexa sehr hölzern und veraltet.
Emotionen erkennen, live dolmetschen
Die schnelle Sprachausgabe von ChatGPT funktioniert auch via Smartphone-Kamera. In einer Demo wurde gezeigt, wie der AI-Assistent in Echtzeit Rechenaufgaben, die auf einen Zettel gezeichnet werden, erkennen und auch lösen kann. Als der Entwickler „I ❤️ ChatGPT“ auf einen Zettel schreibt, erkennt der AI-Chatbot das und sagt zurück „oh, that’s so sweet!“ Für die Live-Demo waren die Usecases natürlich vorbereitet, im Alltag und in anderen Sprachen wie Deutsch muss sich noch zeigen, wie gut das funktioniert. Geht es so gut wie in der Präsentation, werden bald Millionen Menschen die Erfahrung machen, wie gut es sein kann, mit einem Computer zu sprechen.
ChatGPT kann über die neue Sprachfunktion auch als Echtzeit-Dolmetscher fungieren, um für zwei Personen, die in unterschiedlichen Sprachen reden, live zu übersetzen. Als Desktop-App installiert, wird man ChatGPT auch etwa auf Macs verwenden können und so mit dem AI-Chatbot reden können. So soll man der Software etwa Screenshots senden können, um sich dann mit ChatGPT darüber zu unterhalten – etwa, wenn es um die Interpretation von Grafiken geht.
GPT-4o soll auch für das Erstellen eigener GPTs und außerdem in 50 Sprachen verfügbar sein. Das neue Modell soll sowohl für die Gratisnutzer:innen kommen, als auch für die zahlenden Premium-User der App. Via API, um das AI-Modell in andere Apps einzubauen, soll GPT-4o 50 Prozent günstiger sein – damit will man noch mehr Unternehmen anlocken, um an OpenAI anzudocken. Die neuen Features sollen in den nächsten Wochen bereit gestellt werden.
Dass während der Präsentation ein iPhone und ein MacBook verwendet wurden, könnte man auch als Hinweis darauf lesen, was da noch kommen mag. Apple soll in Verhandlungen mit OpenAI stehen, um ChatGPT in seine Betriebssysteme einzubauen, um das veraltete Siri abzulösen. Bereits morgen, Dienstag, wird Google zeigen, was sein ChatGPT-Konkurrent Gemini mittlerweile drauf hat – und wie er in Android oder ChromeOS integriert werden wird.
Hier das Video von der Präsentation: