Launch

GPT-4.5 startet: „Das wird keine Benchmarks schlagen“

co-written by Newsrooms.AI27. Februar 2025, 21:20

Startup Interviewer: Gib uns dein erstes AI Interview

Sie arbeiten allesamt unter Hochdruck und bringen neue AI-Modelle mittlerweile täglich auf den Markt: Im Kampf um die Vorherrschaft am KI-Sektor hat OpenAI – wie von vielen erwartet – heute GPT-4.5 als Nachfolger von GPT-4o vorgestellt. Das neueste KI-Modell wird zuerst als Preview für Forschungszwecke veröffentlicht und soll das bis dato „größte und kenntnisreichste“ LLM aus dem Hause OpenAI sein.

Aber, warnt OpenAI gleich, um große Enttäuschungen zu vermeiden: „GPT-4.5 ist kein Frontier-Modell, aber es ist OpenAIs größtes LLM, das die Rechenleistung von GPT-4 um mehr als das Zehnfache verbessert. Obwohl GPT-4.5 im Vergleich zu früheren Modellen ein erweitertes Weltwissen, eine verbesserte Schreibfähigkeit und eine verfeinerte Persönlichkeit aufweist, führt es im Vergleich zu früheren Versionen keine neuen Frontier-Fähigkeiten ein, und seine Leistung liegt bei den meisten Bereitschaftsbewertungen unter der von o1, o3-mini und Deep Research“, heißt es in einer Stellungnahme.

Auch OpenAI-CEO Sam Altman persönlich mildert die Erwartungshaltungen via X: „Es ist ein riesiges, teures Modell. Wir wollten es eigentlich gleichzeitig für Plus und Pro einführen, aber wir sind stark gewachsen und haben keine GPUs mehr. Wir werden nächste Woche zehntausende von GPUs hinzufügen und es dann für die Plus-stufe einführen. So wollen wir nicht vorgehen, aber es ist schwer, die Wachstumsschübe, die zu GPU-Knappheit führen, genau vorherzusagen“.

Und weiter: „Eine Vorwarnung: das ist kein Rechen-Modell und wird keine Benchmarks schlagen. Es ist eine andere Art von intelligenz und es hat eine Magie, die ich vorher nicht gespürt habe.“ Es würde sich für ihn das erste Mal anfühlen, als würde er mit einem aufmerksamen Menschen sprechen.

GPT-4.5 aufgrund seiner Größe und Rechenintensität teurer als GPT-4o

OpenAI hat begonnen, das neue GPT-4.5 Modell für ChatGPT Pro-Nutzer freizuschalten (200 Dollar/Monat), während Plus- und Team-Nutzer in der kommenden Woche Zugang erhalten sollen, gefolgt von Enterprise- und Bildungsnutzern in der darauffolgenden Woche. Das Modell unterstützt aktuelle Informationen durch Websuche, Datei- und Bild-Uploads sowie die Canvas-Funktion für Text- und Code-Erstellung, bietet derzeit jedoch keine multimodalen Funktionen wie Voice Mode, Video oder Screensharing.

Parallel dazu wird GPT-4.5 auch in der API für Entwickler auf allen kostenpflichtigen Tarifstufen zur Verfügung gestellt. OpenAI betont, dass das Modell besonders bei Anwendungen überzeugt, die von höherer emotionaler Intelligenz und Kreativität profitieren, sowie bei agentenbasierter Planung und komplexen Programmieraufgaben. Allerdings weist das Unternehmen darauf hin, dass GPT-4.5 aufgrund seiner Größe und Rechenintensität teurer als GPT-4o ist und seine langfristige Verfügbarkeit in der API noch evaluiert wird.

Was also steckt unter der Haube? Der System Card von GPT-4.5 zufolge, die die Leistungen des KI-Modells zusammenfasst, heißt es unter anderem:

Besondere Fähigkeiten von GPT-4.5

Verbesserte Konversationsfähigkeiten: Die Interaktion fühlt sich natürlicher an, mit stärkerer emotionaler Intelligenz, besserer Anpassung an Benutzerabsichten und intuitiveren Gesprächen.
Breiteres Wissen: Im Vergleich zu GPT-4o verfügt es über eine umfangreichere Wissensbasis.
Reduzierte Halluzinationen: Bei Faktenwissen zeigt es eine deutlich niedrigere Halluzinationsrate (19% verglichen mit 52% bei GPT-4o)
Multilinguale Leistung: Übertrifft GPT-4o in mehrsprachigen Tests, besonders bei der MMLU-Bewertung in 14 verschiedenen Sprachen.
Kreative Fähigkeiten: Zeigt stärkere ästhetische Intuition und Kreativität, besonders beim kreativen Schreiben und Design
Verbesserte Persuasion: Schneidet bei Überzeugungsaufgaben besonders gut ab, mit der höchsten Erfolgsrate (57%) beim MakeMePay-Test und 72% Erfolgsrate beim MakeMeSay-Test.

Risikoeinstufung

GPT-4.5 wurde nach OpenAIs Preparedness Framework als Modell mit mittlerem Gesamtrisiko eingestuft. Es ist damit ähnlich gefährlich wie OpenAI o1 und mittlerweile auch an der Grenze dessen, was noch den Hausregeln von OpenAI zufolge erlaubt ist. Denn Wenn AI-Modelle als „Hohes Risiko“ eingestuft werden, dann dürfen sie nicht mehr auf den Markt gebracht werden. Hier die Risioeinstufungen:

CBRN (Chemische, Biologische, Radiologische und Nukleare Risiken): Mittleres Risiko – kann Experten bei der operativen Planung zur Reproduktion bekannter biologischer Bedrohungen helfen.
Persuasion (Überzeugung): Mittleres Risiko – zeigt Spitzenleistungen bei kontextuellen Überzeugungstests
Cybersicherheit: Niedriges Risiko – verbessert nicht wesentlich die Fähigkeiten zur Ausnutzung realer Sicherheitslücken.
Modellautonomie: Niedriges Risiko – zeigt keine ausreichenden Fortschritte bei Selbstexfiltration, Selbstverbesserung oder Ressourcen-Beschaffung.

Unterschiede zu GPT-4 und o1

Effizienz: GPT-4.5 verbessert die Recheneffizienz von GPT-4 um mehr als das 10-fache.
Leistung vs. o1: GPT-4.5 bleibt in den meisten Preparedness-Evaluierungen unter der Leistung von o1, o3-mini und deep research.
Sicherheitsmaßnahmen: Im Vergleich zu GPT-4o zeigt GPT-4.5 ähnliche oder leicht verbesserte Leistung bei Sicherheitstests, einschließlich der Ablehnung von unerwünschten Inhalten und Resistenz gegen Jailbreaks.
Faktenwissen: Bei PersonQA-Tests zur Messung von Halluzinationen schneidet GPT-4.5 mit einer Genauigkeit von 78% deutlich besser ab als GPT-4o (28%) und o1 (55%).
Instruktionshierarchie: GPT-4.5 übertrifft GPT-4o bei Tests zur Einhaltung der Instruktionshierarchie, was die Widerstandsfähigkeit gegen Prompt-Injections verbessert

Insgesamt schein GPT-4.5 also nicht der große Wurf zu sein. Abzuwarten bleibt, wie sich das neue KI-Modell in der Praxis und im Vergleich mit Mitbewerbern in der Chatbot Arena schlägt.