Text-to-Video

Stability AI will mit Stable Video 3D auch im Gaming-Bereich mitmischen

Jakob Steinschaden19. März 2024, 11:04

Startup Interviewer: Gib uns dein erstes AI Interview

Die Vorschau auf das noch dieses Jahr kommende Text-to-Video-Modell von OpenAI namens Sora (unser Deep Dive dazu hier) hat Schockwellen durch die digitale Welt gejagt. Und die sind sicher auch bis zu den Mitbewerbern von OpenAI durchgedrungen – etwa auch zum eher umstrittenen britischen Startup Stability AI mit Hauptsitz in London. Dieses war bis zur Veröffentlichung von Dall-E 3 von OpenAI mit Stable Diffusion das bekannteste Text-to-Image-Modell.

Nun versucht Stability AI, im Videobereich aufzuholen -zumindest mit kleinen Schritten. Mit „Stable Video 3D“ (SV3D) zeigt man aktuell ein neues Diffusions-Modell, mit dem man aus einzelnen Bildern 3D-Objekte zaubern kann. In der erweitereten Version des Modells kann man sogar Kamerafahrten rund um diese 3D-Objekte simulieren. Grundlage von SV3D ist Stable Video Diffusion, das im November 2023 veröffentlicht wurde und vor allem mit dem anderen Text-to-Video-Startup Runway verglichen wurde.

Mit Stable Video 3D versucht sich Stability AI nun offenbar spannend für den Gaming-Bereich zu machen, wo es in Spielen natürlich massenhaft Bedarf an 3D-Objekten gibt. Auch im E-Commerce könnte es Einsatz finden, wenn man etwa ein Produkt in einer Kamerafahrt aus allen Winkeln zeigen möchte. SV3D kann für kommerzielle Zwecke mit einer kostenpflichtigen Stability AI-Mitgliedschaft verwendet werden. Für die nicht-kommerzielle Nutzung können Sie die Modellgewichte auf Hugging Face herunterladen werden. OpenAi hat im Zuge des Launches auch kommuniziert, dass Sora toll für den Gaming-Bereich wäre.

Worauf man bei Stability AI noch wartet, ist das Text-to-Image-Modell Stable Diffusion 3, das in einer Preview gezeigt wurde. Dem Startup zufolge soll es besser sein als DALL E 3, Midjourney v6 sowie Ideogram v1 in Sachen Typographie – es bleibt aber abzuwarten, ob sich das in der Praxis auch bewahrheitet.