Sora

OpenAI fordert Runway mit Text-to-Video-Generator heraus

Sora generiert Mammuts. © OpenAI
Sora generiert Mammuts. © OpenAI
Startup Interviewer: Gib uns dein erstes AI Interview Startup Interviewer: Gib uns dein erstes AI Interview

ChatGPT ist für Text und Code da, Dall-E für Bilder – und mit Sora sollen Nutzer:innen künftig einfach mit einigen Text-Prompts kurze Videos generieren können. Im Rennen um die Vorherrschaft im AI-Modell-Bereich hat OpenAI nun mit Sora einen Text-to-Video-Generator vorgestellt, der das bisher im Bereich führende AI-Startup Runway in den Schatten stellen soll.

„Sora ist in der Lage, komplexe Szenen mit mehreren Figuren, bestimmten Bewegungsarten und genauen Details des Motivs und des Hintergrunds zu erzeugen. Das Modell versteht nicht nur, was der Benutzer in der Eingabeaufforderung verlangt hat, sondern auch, wie diese Dinge in der realen Welt existieren“, heißt es aus der führenden AI-Schmiede in San Francisco. Erste Beispiele zeigen fotorealistische Kurzvideos, die man nicht mehr oder nur an Details von echten Aufnahmen unterscheiden kann. Das AI-Modell kann auch unterschiedliche Szenen zusammenschneiden.

Sora basiert zwar auf den Entwicklungen von ChatGPT und Dall-E, funktioniert aber doch ein wenig anders. „Sora ist ein Diffusionsmodell, das ein Video erzeugt, indem es mit einem Video beginnt, das wie statisches Rauschen aussieht, und es allmählich transformiert, indem es das Rauschen in vielen Schritten entfernt“, erläutert OpenAI. Damit man künftig in den Daten erkennen kann, dass es sich um ein AI-Video handelt, sollen ähnlich wie bei Dall-E Wasserzeichen-ähnliche, eindeutige Merkmale auf dem technischen Standard „Coalition for Content Provenance and Authenticity” (C2PA) integriert werden.

DALL-E 3: Bilder bekommen Wasserzeichen von OpenAI verpasst 

Nur einigen Tester:innen zugänglich

Herausgegeben wird Sora aber noch nicht, vorher sollen Expert:innen es auf Herz und Nieren testen. „Es hat möglicherweise Schwierigkeiten, die Physik einer komplexen Szene genau zu simulieren, und versteht möglicherweise bestimmte Fälle von Ursache und Wirkung nicht. Zum Beispiel könnte eine Person in einen Keks beißen, aber danach hat der Keks vielleicht keine Bissspuren“, heißt es. „Das Modell kann auch räumliche Details einer Aufforderung verwechseln, z. B. links und rechts verwechseln, und es kann Probleme mit präzisen Beschreibungen von Ereignissen haben, die im Laufe der Zeit stattfinden, wie z.B. das Verfolgen einer bestimmten Kamerabahn.“

OpenAi ist nicht das erste Unternehmen, dass sich AI-generierten Videos widmet. Da zeigte bereits das New Yorker Startup Runway beachtliche Resultate mit seinem Modell Gen-2. Runway hat auch bereits eine Partnerschaft mit Getty Images geschlossen, um Unternehmenskunden „hochwertige, maßgeschneiderte Inhalte“ anzubieten. Auch hat Google bei Gemini durchblicken lassen, dass dieses LLM auch ganz gute Video-Fähigkeiten hat.

Nun sorgen sich bereits einige um ihre Jobs. „Sam, bitte mach mich nicht obdachlos“, schrieb der berühmte Youtuber Mr. Beast an den OpenAI-CEO, als der Sora auf X ankündigte. Der schickte ihm auf Wunsch ein Video von einem Schach-spielenden Affen zurück.

Werbung
Werbung

Specials unserer Partner

Die besten Artikel in unserem Netzwerk

Powered by Dieser Preis-Ticker beinhaltet Affiliate-Links zu Bitpanda.

Deep Dives

© Wiener Börse

IPO Spotlight

powered by Wiener Börse

Austrian Startup Investment Tracker

Die Finanzierungsrunden 2024

#glaubandich-Challenge 2024

Der größte Startup-Wettbewerb Österreichs mit Top VC-Unterstützung

Trending Topics Tech Talk

Der Podcast mit smarten Köpfen für smarte Köpfe

2 Minuten 2 Millionen | Staffel 11

Die Startups - die Investoren - die Deals - die Hintergründe

The Top 101

Die besten Startups & Scale-ups Österreichs im großen Voting

BOLD Community

Podcast-Gespräche mit den BOLD Minds

IPO Success Stories

Der Weg an die Wiener Börse

Weiterlesen