Veo 2

Google DeepMind: Ein neues Videomodell soll Sora von OpenAI Konkurrenz machen

Julia Isabelle Gerber17. Dezember 2024, 10:23

Laut Google Deep Mind übertrifft Veo 2 andere führende KI-Videogeneratoren. © Google Deep Mind

Startup Interviewer: Gib uns dein erstes AI Interview

Googles KI-Forschungslabor „Google DeepMind“ hat ein neues KI-Tool zur Videogenerierung veröffentlicht: Veo 2, den Nachfolger von Veo. Damit könnte Google das Modell Sora von OpenAI übertrumpfen.

Über Veo 2

Im finalen Entwicklungsstadium soll das Tool mehr als zweiminütige Videoclips in einer Auflösung von bis zu 4K (4096 x 2160 Pixel) erstellen können – das entspricht der vierfachen Auflösung und über sechsfachen Dauer der mit Sora generierten Clips.

Derzeit ist es allerdings noch nicht so weit, da Googles Videoerstellungstool „VideoFX“, in das Veo 2 integriert wurde, aktuell nur achtsekündige Videos in 720p erzeugt. Das heißt, Sora performt derzeit mit 1080p-Clips und einer Länge von 20 Sekunden besser.

Eine Demo des neuen Tools zeigt eine scharfgestochene Szene am Morgen:

Der Prompt zum Video: “The sun rises slowly behind a perfectly plated breakfast scene. Thick, golden maple syrup pours in slow motion over a stack of fluffy pancakes, each one releasing a soft, warm steam cloud. A close-up of crispy bacon sizzles, sending tiny embers of golden grease into the air. Coffee pours in smooth, swirling motion into a crystal-clear cup, filling it with deep brown layers of crema. Scene ends with a camera swoop into a fresh-cut orange, revealing its bright, juicy segments in stunning macro detail.“

Launch 2025 geplant

VideoFX steht aktuell nicht der breiten Masse zur Verfügung, sondern befindet sich laut Google auf einer Warteliste, von der jede Woche neue Nutzer:innen freigeschaltet werden. Veo 2 soll außerdem über die Vertex AI-Entwicklerplattform verfügbar gemacht werden, „sobald das Modell für den Einsatz im großen Maßstab bereit ist“.

Laut Eli Collins, Product-VP bei DeepMind, soll es im Laufe des nächsten Jahres so weit sein, doch es gebe noch viel zu tun. Bis dahin werden weitere Verbesserungen auf Basis von User-Feedback vorgenommen.

Was ist neu an Veo 2?

Ähnlich wie sein Vorgänger erstellt Veo 2 Videos aus Texteingaben oder Text in Kombination mit Referenzbildern. Neu ist laut DeepMind, dass Veo 2 Clips in verschiedenen Stilen generiert, ein besseres Verständnis für Physik und Kamerasteuerung bietet und dabei schärfere Texturen liefert – insbesondere in bewegungsreichen Szenen, wie etwa einem Auto, das über eine Autobahn rast.

Die verbesserte Kamerasteuerung ermöglicht präzisere Perspektivenwechsel. Zudem wirken Bewegungen, Flüssigkeitsdynamik, Licht- und Schatteneffekte realistischer. Das Update umfasst auch nuanciertere menschliche Mimik und bessere filmische Effekte.

Herausforderungen

Verbesserungspotenzial sieht Collins vor allem bei „Kohärenz und Konsistenz“. Veo 2 könne eine Aufforderung für einige Minuten konsequent umsetzen, scheitere jedoch bei längeren Zeiträumen. Auch die Darstellung komplexer Details sowie schneller und dynamischer Bewegungen bleibe herausfordernd.

Training und Deep Fakes

Google gibt an, Veo 2 mit einer Vielzahl von Videos trainiert zu haben, ohne die Quellen offenzulegen. Laut TechCrunch könnte YouTube eine mögliche Datenquelle sein, da Google Eigentümer der Plattform ist. Grundsätzlich werde mit „öffentlichen Daten“ gearbeitet, was laut Google eine faire Nutzung darstellt. Die Zustimmung der Rechteinhaber:innen wird dabei nicht eingeholt.

Zusätzlich arbeitet DeepMind mit Künstler:innen und Produzent:innen zusammen, um die Videogenerierungsmodelle weiter zu verbessern.

Um Fälschungen zu verhindern, nutzt das Unternehmen die Wasserzeichen-Technologie SynthID, die unsichtbare Markierungen in die von Veo 2 erzeugten Bilder einbettet. Wie alle Wasserzeichenmethoden ist jedoch auch SynthID nicht vollkommen fälschungssicher.