Sora

OpenAI fordert Runway mit Text-to-Video-Generator heraus

Jakob Steinschaden16. Februar 2024, 08:46

Startup Interviewer: Gib uns dein erstes AI Interview

ChatGPT ist für Text und Code da, Dall-E für Bilder – und mit Sora sollen Nutzer:innen künftig einfach mit einigen Text-Prompts kurze Videos generieren können. Im Rennen um die Vorherrschaft im AI-Modell-Bereich hat OpenAI nun mit Sora einen Text-to-Video-Generator vorgestellt, der das bisher im Bereich führende AI-Startup Runway in den Schatten stellen soll.

„Sora ist in der Lage, komplexe Szenen mit mehreren Figuren, bestimmten Bewegungsarten und genauen Details des Motivs und des Hintergrunds zu erzeugen. Das Modell versteht nicht nur, was der Benutzer in der Eingabeaufforderung verlangt hat, sondern auch, wie diese Dinge in der realen Welt existieren“, heißt es aus der führenden AI-Schmiede in San Francisco. Erste Beispiele zeigen fotorealistische Kurzvideos, die man nicht mehr oder nur an Details von echten Aufnahmen unterscheiden kann. Das AI-Modell kann auch unterschiedliche Szenen zusammenschneiden.

Sora basiert zwar auf den Entwicklungen von ChatGPT und Dall-E, funktioniert aber doch ein wenig anders. „Sora ist ein Diffusionsmodell, das ein Video erzeugt, indem es mit einem Video beginnt, das wie statisches Rauschen aussieht, und es allmählich transformiert, indem es das Rauschen in vielen Schritten entfernt“, erläutert OpenAI. Damit man künftig in den Daten erkennen kann, dass es sich um ein AI-Video handelt, sollen ähnlich wie bei Dall-E Wasserzeichen-ähnliche, eindeutige Merkmale auf dem technischen Standard „Coalition for Content Provenance and Authenticity” (C2PA) integriert werden.

DALL-E 3: Bilder bekommen Wasserzeichen von OpenAI verpasst

Nur einigen Tester:innen zugänglich

Herausgegeben wird Sora aber noch nicht, vorher sollen Expert:innen es auf Herz und Nieren testen. „Es hat möglicherweise Schwierigkeiten, die Physik einer komplexen Szene genau zu simulieren, und versteht möglicherweise bestimmte Fälle von Ursache und Wirkung nicht. Zum Beispiel könnte eine Person in einen Keks beißen, aber danach hat der Keks vielleicht keine Bissspuren“, heißt es. „Das Modell kann auch räumliche Details einer Aufforderung verwechseln, z. B. links und rechts verwechseln, und es kann Probleme mit präzisen Beschreibungen von Ereignissen haben, die im Laufe der Zeit stattfinden, wie z.B. das Verfolgen einer bestimmten Kamerabahn.“

OpenAi ist nicht das erste Unternehmen, dass sich AI-generierten Videos widmet. Da zeigte bereits das New Yorker Startup Runway beachtliche Resultate mit seinem Modell Gen-2. Runway hat auch bereits eine Partnerschaft mit Getty Images geschlossen, um Unternehmenskunden „hochwertige, maßgeschneiderte Inhalte“ anzubieten. Auch hat Google bei Gemini durchblicken lassen, dass dieses LLM auch ganz gute Video-Fähigkeiten hat.

Nun sorgen sich bereits einige um ihre Jobs. „Sam, bitte mach mich nicht obdachlos“, schrieb der berühmte Youtuber Mr. Beast an den OpenAI-CEO, als der Sora auf X ankündigte. Der schickte ihm auf Wunsch ein Video von einem Schach-spielenden Affen zurück.