OpenAI hat die Arbeiten an GPT-5 aufgenommen
Was kommt nach GPT-4 Turbo? Folgt man der Logik von iPhone-Bezeichnungen, dann GPT-5. Und genau das hat gerade Sam Altman in einem Interview mit der Financial Times bestätigt. Er bestätigte, was zuvor nur eine Spekulation war, nämlich dass das AI-Startup-Unicorn OpenAI bereits die Arbeiten am Nachfolger für GPT-4 Turbo aufgenommen hat. Einen genauen Zeitplan für die Veröffentlichung der nächsten Generation seines Al-Modells gibt es aber noch nicht.
Fest steht jedenfalls, dass GPT-5 noch mehr Daten als seine Vorgänger zum Training braucht. Diese werden laut Altman aus einer Kombination von öffentlich zugänglichen Datensätzen im Internet sowie aus proprietären Daten von Unternehmen stammen. Das erklärt auch den jüngsten Aufruf von OpenAI nach Partnerschaften mit Firmen, Organisationen oder sogar Staaten, die Datensätze zur Verfügung stellen wollen oder können. Eingereichte Daten können in Text-, Bild-, Audio- oder Videoformaten vorliegen. Das Unternehmen gibt an, dass es über Werkzeuge verfügt, um PDFs zu transkribieren oder Rohdaten auf andere Weise zu verarbeiten. Beispielsweise hat die isländische Regierung bereits kuratierten Datensätze bereitgestellt, damit ChatGPT besser Isländisch verstehen und wiedergeben kann.
OpenAI bringt GPT Store für 100 Mio. ChatGPT-User an den Start
OpenAI braucht viel mehr nicht-öffentliche Daten für das Training von GPT-5
Über den Aufruf will OpenAI nun an Datensätze gelangen, die nicht leicht online zugänglich. Bekannt ist, dass GPT-4 etwa mit Daten aus Twitter, Reddit oder Wikipedia trainiert wurde. Um ein neues Modell zu trainieren, braucht es nun noch mehr Datensätze, damit sich GPT-5 von seinen Vorgängern unterscheiden kann. Die personalisierten GPTs, die seit kurzem jeder ChatGPT-Plus-User anlegen kann, sich ebenfalls eine Quelle für Daten, da dort ebenfalls PDFs etc. hochgeladen werden können. Für diese Daten bezahlt OpenAI nichts.
Obwohl GPT-5 werde wahrscheinlich ausgefeilter sein wird als seine Vorgänger, sagte Altman gegenüber der FT, aber es sei noch schwierig genau vorherzusagen, welche neuen Fähigkeiten und Fertigkeiten das Modell haben könnte.
Ein Blick zurück zeigt, wie sich die GPT-Modelle von OpenAI entwickelt haben:
- GPT-2: 1,5 Milliarden Parameter,(2019)
- GPT-3: 175 Milliarden Parameter (2020)
- GPT-3.5: 20 Milliarden Parameter (März 2022)
- GPT-4: 8x 220 Milliarden Parameter (März 2023)
OpenAI ist derzeit der große Marktführer bei LLMs. Doch die Konkurrenz schläft nicht. Google hat bereits PaLM 2 vorgelegt und arbeitet am Nachfolger Genesis, Meta Platforms arbeitet bereits an Llama 3, und Startups wie Anthropic, Mistral AI, Aleph Alpha, Inflection AI und Co werfen auch regelmäßig immer neue Sprachmodelle auf den Markt.
OpenAI: Partnerschaften sollen Zugang zu nicht öffentlichen Daten bringen