OpenAI kündigt DALL-E 3 mit nativer ChatGPT-Integration an
Das neue Text-zu-Bild-System Dall-E 3 von OpenAI soll deutliche Verbesserungen gegenüber dem Vorgängermodell bieten. Ein wichtiges Feature: Das System soll nativ in ChatGPT integriert sein. Diese Integration soll laut OpenAI das sogenannte „Prompt Engineering“ überflüssig machen, berichtet The Decoder. Dall-E 3 wird damit zu einer ChatGPT-Anwendung für zahlende ChatGPT-Plus-User:innen. Das Sprachmodell soll somit als Prompt-Partner für Dall-E 3 dienen, um Brainstormings zu unterstützen und Prompts zu optimieren.
ChatGPT erlaubt gezielte Anweisungen
Das neue System soll signifikante Fortschritte in seiner Fähigkeit zeigen, Bilder zu generieren, die exakt komplizierten Prompts folgen. Dazu gehört die präzise Darstellung einer Szene mit spezifischen Objekten, ihren Beziehungen untereinander und Detailaspekten wie menschlichen Händen oder Text im Bild, typische Schwachstellen bisheriger Text-zu-Bild-Systeme. Das Tool unterstützt, wie Dall-E 2 und andere Text-zu-Bild-Systeme, eine Vielzahl von Stilen, von künstlerisch abstrakt über Comiczeichnungen bis zu Fotorealismus.
Wenn das resultierende Bild nahe, aber nicht genau wie gewünscht ist, lässt es sich künftig über ChatGPT mit gezielten Anweisungen verbessern. Diese dialogische Bildgenerierung soll laut OpenAI den Bedarf an komplizierten Prompts reduzieren. Alle Bilder, die mit Dall-E 3 entstehen, sollen vollständig ihren Urheber:innen gehören. Die Bilder lassen sich wiederverwenden, vermarkten und verkaufen.
Clemens Wasner über ChatGPT: „Eine Open-Source-Welt ist viel, viel wahrscheinlicher“
Dall-E 3 lehnt Namen lebender Künstler:innen ab
Die Einführung in ChatGPT-Plus, ChatGPT Enterprise und via API ist für Oktober geplant. Eine eigenständige Version von Dall-E 3 über OpenAI Labs, ähnlich Dall-E 2, soll im Laufe des Herbstes folgen. Eine große Änderung und Einschränkung im Vergleich zu bestehenden Bildsystemen ist, dass die neue Text-zu-Bild Anwendung Prompts ablehnt, die Namen lebender Künstler:innen enthalten. Das ist in anderen Bildsystemen eine beliebte Methode, um dem Bildsystem eine stilistische Richtung zu geben.
Darüber hinaus haben Künstler:innen offenbar die Möglichkeit, ihre Bilder vom Training zukünftiger Bildmodelle auszuschließen. Dies wiederum könnte bedeuten, dass Dall-E 3 immer noch mit den Werken dieser Künstler:innen trainiert wird, was zu weiteren Copyright-Diskussionen führen könnte. Möglicherweise kann OpenAI nach Opt-out-Phasen aktualisierte Versionen von der Text-zu-Bild-App zur Verfügung stellen.
Auch Prompts mit Namen bekannter Personen sollen aus Sicherheitsgründen abgelehnt werden, um zu verhindern, dass z.B. KI-generierte Bilder von Politiker:innen wie bei Midjourney um die Welt gehen. Ebenso testet OpenAI intern ein Tool, das erkennen soll, ob ein Bild mit dem Tool entstanden ist.