Ersatz

OpenAI schickt Dall-E in Pension, bringt verbesserte Bildgenerierung mit GPT-4o

Jakob Steinschaden26. März 2025, 08:45

Taucher in den Wolken, generiert mit GPT-4o. © Trending Topics via ChatGPT

Startup Interviewer: Gib uns dein erstes AI Interview

Eifrige Nutzer:innen von ChatGPT haben es schon bemerkt: Seit Dienstag Abend gibt es einen neuen Bildgenerator, der direkt in den berühmtesten KI-Chatbot der Welt integriert ist. Denn Macher OpenAI hat den bisherigen Bildgenerator Dall-E 3 in Pension geschickt und ihn durch die Bildfähigkeiten von GPT-4o ersetzt.

„Die GPT-4o-Bilderzeugung ist ein neuer, wesentlich leistungsfähigerer Ansatz zur Bilderzeugung als unsere früheren Modelle der DALL-E 3-Serie. Es kann fotorealistische Ausgaben erzeugen. Es kann Bilder als Input nehmen und sie transformieren. Es kann detaillierte Anweisungen befolgen, einschließlich der zuverlässigen Einbindung von Text in Bilder. Und da die 4o-Bilderzeugung nativ in die Architektur unseres omnimodalen GPT-4o-Modells eingebettet ist, kann sie alles, was sie weiß, nutzen, um diese Fähigkeiten auf subtile und ausdrucksstarke Weise anzuwenden und Bilder zu erzeugen, die nicht nur schön, sondern auch nützlich sind“, heißt es in einer Aussendung von OpenAI.

Dass nun GPT-4o zum Einsatz kommt, ist natürlich auch eine Reaktion auf die starke Konkurrenz im Bildbereich. Midjourney gilt vielen als der Quasi-Standard für KI-Bildgenerierung, aber auch bei Grok von Elon Musks xAI, Black Forest Labs (integriert bei Mistral AI) oder Googles Gemini gibt es bereits deutlich bessere Bildgenerierung als bei ChatGPT. Deswegen ist es kaum verwunderlich, dass die längst aus der Mode gekommenen Dall-E-3-Bilder in Pension geschickt werden (Dall-E gibt es weiter als GPT) werden und durch etwas Besseres ersetzt werden.

Hier die Vor- und Nachteile der neuen Bildergenerierung laut OpenAI:

Vorteile:

Fotorealistische Qualität: GPT-4o erzeugt präzise, fotorealistische Bilder, integriert Text und Symbole nahtlos und ermöglicht komplexe Bild-zu-Bild-Transformationen.
Multimodale Integration: Es verbindet Text- und Bildgenerierung durch native Einbettung in GPT-4o für kontextbewusste und intelligente Ergebnisse.
Verbesserte Sicherheitsmaßnahmen: Mehrschichtige Mechanismen wie Prompt-Blocking und Output-Blocking schützen vor schädlichen Inhalten.
Stärkere Diversität: Bessere Repräsentation von Geschlecht, Hautfarben und ethnischen Gruppen im Vergleich zu vorherigen Modellen.
Transparenz und Nachverfolgbarkeit: Durch C2PA-Metadaten können Inhalte verifiziert und deren Herkunft geprüft werden.

Nachteile

Missbrauchsmöglichkeiten: Die realistische Qualität bietet Potenzial für Deepfakes, nicht genehmigte Bildmanipulationen oder unerwünschte Anleitungen.
Einschränkungen für Kreative: Verbot der Nachahmung von Künstlerstilen und strikte Regeln für Darstellungen von Minderjährigen schränken kreative Freiheiten ein.
Bias-Problematik: Trotz Fortschritten existieren Verzerrungen in Bezug auf Geschlecht (männlich dominiert) und ethnische Vielfalt.
Technische Limitationen: Klassifikatoren, etwa zur Erkennung Minderjähriger, können in Grenzfällen ungenau sein.
Ethische Herausforderungen: Realistische Bilder können Vertrauen in Medien untergraben und gesellschaftliches Misstrauen fördern.