Künstliche Intelligenz

Sora: Unklarheit über Trainings-Daten des Video-AI-Modells

Georg Haas15. März 2024, 10:28

Startup Interviewer: Gib uns dein erstes AI Interview

Das Text-to-Video-Modell Sora von OpenAI beeindruckt – und verängstigt – derzeit die AI-Community (wir berichteten). Das AI-Modell dient zur Generierung von bis zu 60 Sekunden langen Videos, die extrem realistisch aussehen und alles bisher Gesehene in diesem Bereich in den Schatten stellt. Eine große Frage wirft das Modell nun auf: Mit welchen Daten trainiert OpenAI Sora? Es besteht die Sorge, dass es hierbei zu urheberrechtlichen Verstößen kommen könnte. Nun hat OpenAI-CTO Mira Murati dem Wall Street Journal ein Interview gegeben, das diese Sorgen nicht unbedingt mildert. Auf die Frage, ob Sora Videos von YouTube oder Facebook verwendet, wusste sie keine klare Antwort.

Sora: Deep Dive in das erschreckend faszinierende Video-AI-Modell von OpenAI

Training mit öffentlichen und lizenzierten Daten

Mira Murati sagte konkret, dass OpenAI das Modell mit öffentlichen und lizenzierten Daten trainiert. Genau diese Formulierung hatte das Unternehmen auch bereits bei der Ankündigung der Text-to-Video-Anwendung verwendet, berichtet the decoder. Jedoch ist Murati nach eigenen Angaben „nicht sicher“, ob das auch Videos von YouTube oder Facebook einschließt. Als CTO ist Murati zwar nicht unbedingt immer in die tägliche Entwicklung involviert, jedoch macht ihre Antwort etwas unruhig, wenn man bedenkt, wie oft OpenAI derzeit Datendiebstahl vorgeworfen wird.

Der Tech-Blogger Sascha Pallenberg hat zu dem Interview auf LinkedIn kommentiert, dass OpenAI hier ein „rechtlich überaus angreifbares Businessmodell“ zu betreiben scheint. Er kritisiert auch die „Hilflosigkeit“ von Murati, die anscheinend auf die kritische Frage rund um die Daten nicht ausreichend vorbereitet war. „OpenAI trainiert seine Modelle vor allen Dingen mit den Daten und den kreativen Ergüssen von all denen, die ihre Werke im Netz teilen. Ungefragt, unnachgiebig und letztendlich gewinnorientiert“, so Pallenberg. Ihm zufolge stehen wohl rund um solche AI-Modelle viele Gerichtsverfahren bevor, und das nicht nur bei OpenAI.

Sora befindet sich derzeit noch in der Entwicklungsphase, das Modell ist noch nicht öffentlich. Nach dem Interview bestätigte Murati, dass unter anderem lizenzierte Daten von Shutterstock zum Einsatz kommen. Es gibt aktuell mehrere Klagen gegen OpenAI, unter anderem von Autor:innen und der New York Times. Sie behaupten, dass das Unternehmen ihre urheberrechtlich geschützten Werke ohne Erlaubnis für das Training von KI-Modellen verwenden.

AI-Beirat: „Nicht einmal große Unis können mit diesen Konzernen auch nur annähernd mithalten“

Sora ist derzeit noch sehr teuer

OpenAI argumentiert, dass die Verwendung urheberrechtlich geschützter Daten für das KI-Training unter die Fair-Use-Regeln fällt und es unvermeidlich ist, urheberrechtlich geschütztes Material für das Training moderner KI-Modelle zu verwenden. Murati äußert sich auch zu den Kosten von Sora: Derzeit sei die Videogenerierung noch „viel, viel teurer“ als bestehende Systeme. Wenn Sora einmal auf den Markt kommt, sollen die Kosten ähnlich hoch sein wie für DALL-E 3. Die Veröffentlichung von Sora sei „definitiv für dieses Jahr“ geplant, könne aber noch einige Monate dauern.

Die US-Wahlen im November könnten den Zeitpunkt der Veröffentlichung beeinflussen. Es gibt hier auch massive Bedenken rund um Fake-Inhalte. Google hat beispielsweise kürzlich angekündigt, dass Gemini seine Antworten zu Fragen bezüglich politischer Wahlen einschränken soll (wir berichteten). Die Sicherheitsrichtlinien für Sora sind laut Murati noch in Entwicklung, sollten aber ähnlich wie bei DALL-E 3 sein, wo etwa die Erstellung von Bildern öffentlich bekannter Personen verboten sei.

Gemini: Google-Chatbot schränkt Anfragen zu politischen Wahlen ein

Audio-Tonspur vorerst nicht geplant

Ebenfalls noch nicht völlig klar ist, wie lange Sora braucht, um ein Video zu generieren, schreibt heise. Murati meint, das hängt von der Komplexität des Prompts ab. In der Regel sollen es mehrere Minuten sein. Eine Audiospur wird das Modell vorerst übrigens nicht bieten. Murati zufolge funktioniert Sora wie klassischer Film. Das bedeutet, einzelne Bilder laufen nacheinander, der Videogenerator sei besonders gut darin, die Konsistenz dazwischen herzustellen, auch wenn es in Demonstrationen immer noch einige Mängel gibt, wie beispielsweise die klassischen Probleme mit der Darstellung von Händen.