Kommentar

Social-Media-Daten: Doppelt verkauft – zuerst an die Werbung, jetzt an die AI

Jakob Steinschaden28. Februar 2024, 09:25

AI-Tools werden aktuell mit Milliarden von Nutzerdaten aus Social Media trainiert. © Dall-E — AI TOOLS ARE CURRENTLY TRAINED WITH BILLIONS OF USER DATA FROM SOCIAL MEDIA. © DALL E

Startup Interviewer: Gib uns dein erstes AI Interview

Was soll sich aktuell ein ehemaliger Mitarbeiter von Klarna, der dort seinen Job verloren hat, denken, wenn er Reddit nutzt? Er muss sich doppelt verraten fühlen. Denn für ihn stellt sich die Situation so dar: Das weltweit nach wie vor führende AI-Startup OpenAI hat etwa 2017 damit begonnen, seine Generative Pre-trained Transformer (GPT)-Technologien auch mit Daten der Social-Media-Platform zu trainieren. Bei Reddit schreiben Millionen Menschen täglich Millionen Postings in oft sehr harscher, jedenfalls authentischer Sprache. Ein Schatz für alle, die Computern menschliche Sprache beibringen wollen.

Fast Forward nach 2024: Klarna hat heute bekannt gegeben, dass die Integration von GPT-4 in seinen Kunden-Chatbot nicht nur 40 Millionen Dollar pro Jahr einspart, sondern dass er die Arbeit von 700 Mitarbeiter:innen im Kunden-Service übernehmen kann. Wie der Zufall es so will, hat Klarna 2022 700 Mitarbeiter:innen gekündigt. Jene, die unter anderem auch Reddit aktiv nutzten, müssen sich denken: Habe ich mir da mein eigenes Job-Grab geschaufelt?

Mit ChatGPT, Gemini und Co haben die Tech-Riesen aus den USA Tools auf die Welt losgelassen, die schon heute ganz konkret die Arbeit von tausenden Menschen übernehmen können. Egal ob Amazon, Microsoft, eBay, PayPal, Google oder Snap: Im jungen Jahr 2024 wurden in der Tech-Branche weltweit bereits etwa 45.000 Mitarbeiter:innen hinausgeworfen. Oft wurde dabei argumentiert, dass man lieber auf AI-Tools für bestimmte Aufgaben setzen würde. AI kostet also ganz konkret Jobs, und zwar genau dort, wo die Technologie herkommt.

Die Daten, mit denen die AI-Modelle trainiert werden, stammen dabei oft von den Social-Media-Nutzer:innen selbst. „If you don’t pay for the product, you are the product“ wurde vor vielen Jahren zur geflügelten Phrase. Man beschrieb damit das Geschäftsmodell von Social Media: Wenn ein Service gratis ist, dann bezahlt man mit seinen Daten, die Werbetreibenden fürs Ad-Targeting zur Verfügung gestellt werden. Dabei ging es vor allem um Metadaten, also etwa Alter, Geschlecht, Wohnort, Interessen und Co.

Reddit: Neuer Training-Deal mit großem AI-Unternehmen

Neues Daten-Business für Reddit, Tumblr und WordPress

Beim AI-Training geht es nun ganz intensiv um die Inhaltsdaten – also die vielen Milliarden Spräche, Halbsätze, Emojis und anderen Postings, die Menschen in Social-Media-Dienste getippt haben. Reddit hat daraus ganz offiziell ein Business gemacht und wird 2024 mit dem Verkauf der Nutzerdaten zum Zwecke des AI-Trainings 66,4 Mio. US-Dollar an Umsatzerlösen erzielen; in den nächsten zwei bis drei Jahren sollen es 200 Mio. Dollar sein. Bekannt ist, dass nicht nur OpenAI sein ChatGPT mit Reddit-Daten trainierte, sondern das sich mittlerweile Google die Reddit-Daten für das Training von Gemini gekauft hat.

Weitere Unternehmen, die Nutzerdaten für das AI-Training kostenpflichtig zur Verfügung stellen, sind Tumblr und der führende Blog-Anbieter WordPress. Wie 404 Media berichtet, sollen die Kunden OpenAI sowie Midjourney (Startup mit einem Bild-Generator) sein. Bei X, ehemals Twitter, soll es überraschenderweise nicht so sein, dass der AI-Chatbot Grok mit Hilfe der X-Userdaten trainiert wurde. Jedenfalls aber hat Musk die Kosten für den Zugriff auf die Nutzerdaten via API ordentlich erhöht – möglicherweise mit dem Ziel, sie für AI-Trainings zu monetarisieren.

Meta kann mit einem Datenschatz arbeiten

Und dann ist da natürlich noch Meta Platforms mit den Töchtern Facebook, WhatsApp und Instagram. Wie mehrmals berichtet, arbeitet auch Mark Zuckerberg intensiv an AI-Modellen, die aktuell unter dem Namen Llama auf dem Markt sind – und es ist auch klar, das noch viele weitere folgen werden. In den Nutzungsbedingungen von Facebook/Meta heißt es ganz klar:

„Um effektive Modelle zu trainieren, ist eine enorme Menge an Daten nötig. Meta nutzt daher eine Kombination verschiedener Quellen. Dazu gehören öffentlich zugängliche und lizenzierte Daten sowie Daten aus den Produkten und Dienstleistungen von Meta.„

Ein ganz konkretes Beispiel, wie Meta die Nutzerdaten für das Training von KI-Tools verwendet, ist „Imagine„. Der Bildgenerator, der mit Dall-E von OpenAI, Stable Diffusion oder Midjourney konkurriert, wurde mit 1,1 Milliarden öffentlich sichtbare Bilder auf Facebook und Instagram trainiert.

Es gibt auch keine Möglichkeit, das zu untersagen. Meta arbeitet nicht nur mit Nutzerdaten aus seinen eigenen Plattformen, sondern zieht auch andere Quellen dazu heran. In einem Formular namens „Generative AI Data Subject Rights“ kann man immerhin der Nutzung seiner Daten zum AI-Training widersprechen, sollte Meta diese über Drittparteien (Reddit?) beziehen. Immerhin kann man davon ausgehen, dass Meta seinen Datenschatz nicht an andere AI-Unternehmen verkaufen wird – so sichert man sich einen Wettbewerbsvorteil gegenüber Microsoft/OpenAI und Google, die nicht auf solche Datenmengen zugreifen können, sondern sie eben etwa bei kleineren Social-Media-Diensten wie Reddit, Tumblr oder WordPress.com zukaufen müssen.

Als durchschnittlicher Social-Media-User, der unzählige Stunden seines Lebens damit verbracht hat, die Feeds von Facebook, Instagram, Tumblr, Reddit und Co mit seinem Content (ergo Ideen, Wahrnehmungen, Gefühlen, Meinungen usw.) zu befüllen, muss man heute klar sagen: Meine Daten wurden doppelt verkauft – zuerst an Werbetreibende, und jetzt an AI-Unternehmen. Und wenn es ganz blöd läuft, dann übernimmt ein AI-Bot, der mit meinem eigenen Daten trainiert wurde, meinen Job.