OpenAI: Partnerschaften sollen Zugang zu nicht öffentlichen Daten bringen
Für das Training von KI-Sprachmodellen wie ChatGPT sind gewaltige Datenmengen erforderlich. Dabei gibt es immer wieder Sorgen, dass sie auf private Daten zugreifen und so den Datenschutz verletzen. Deswegen hat ChatGPT-Entwickler OpenAI nun angekündigt, Partnerschaften mit Organisationen zu suchen, die öffentliche und private Datensätze für das Training von KI-Modellen erstellen. Ziel ist es, das Gesamtverständnis der KI für alle Themenbereiche zu verbessern.
OpenAI-CEO sieht ChatGPT auf dem Weg von AI zu Artificial General Intelligence
Daten sollen menschliche Gesellschaft widerspiegeln
Damit KI alle Branchen, Kulturen und Sprachen tiefgreifend verstehen kann, braucht sie laut OpenAI einen möglichst breiten Trainingsdatensatz. „Moderne KI-Technologie lernt Fähigkeiten und Aspekte unserer Welt – von Menschen, unseren Motivationen, Interaktionen und der Art und Weise, wie wir kommunizieren -, indem sie die Daten, mit denen sie trainiert hat, sinnvoll einsetzt“, schreibt das Unternehmen.
OpenAI lädt Organisationen oder andere interessierte Parteien dazu ein, große Datensätze zur Verfügung zu stellen, die die menschliche Gesellschaft widerspiegeln und die der Öffentlichkeit heute noch nicht leicht zugänglich sind. Die Datensätze werden in einem Open-Source-Archiv verwendet, das für das Training von KI-Modellen öffentlich zugänglich ist, sowie als private Datensätze für das Training eigener KI-Modelle.
ChatGPT gibt uns heute ein Interview – mit unerwartetem Ende
OpenAI hat Partnerschaft mit Islands Regierung
Eingereichte Daten können in Text-, Bild-, Audio- oder Videoformaten vorliegen. Das Unternehmen gibt an, dass es über Werkzeuge verfügt, um PDFs zu transkribieren und zu digitalisieren oder Rohdaten auf andere Weise zu verarbeiten. OpenAI zufolge sind keine Datensätze mit sensiblen oder persönlichen Informationen davon betroffen. „Wir arbeiten bereits mit vielen Partnern zusammen, die bereit sind, Daten aus ihrem Land oder ihrer Branche zu präsentieren“, sagt das Unternehmen.
OpenAI hat mit der isländischen Regierung zusammengearbeitet, um die GPT-4-Kenntnisse in Isländisch durch die Einbindung ihrer kuratierten Datensätze zu verbessern. Darüber hinaus hat sich die Firma mit der gemeinnützigen Organisation Free Law Project zusammengetan, die sich für die Demokratisierung des Zugangs zu juristischem Wissen einsetzt, und deren umfangreiche Sammlung juristischer Dokumente in das KI-Training einbezogen.