Chatbot Arena

Grok-3 von xAI schlägt bereits alle Rivalen, liegt vor Google, OpenAI und DeepSeek

co-written by Newsrooms.AI18. Februar 2025, 09:18

Elon Musk mit xAI-Mitarbeitern bei der Präsentation von Grok-3. @ xAI

Startup Interviewer: Gib uns dein erstes AI Interview

Man kann ihn bewundern oder hassen, aber eines muss man ihm lassen: Elon Musk hat es in kürzester Zeit zustande gebracht, sein KI-Startup xAI mit 12 Milliarden Dollar auszustatten und zu einem der Top-Player im AI-Geschäft zu machen. Die Präsentation des neuesten AI-Modells Grok-3, das mit Hilfe des AI-Supercomputers „Collossus“ trainiert wurde, zeigt, dass Musks Truppe imstande ist, auch die ganz großen Player OpenAI und Google in die Schranken zu weisen.

Kurz zu Grok-3: Das AI-Modell wurde mit 200.000 H100-GPUs von Nvidia trainiert, hat Nachdenk-Fähigkeiten („Reasoning“), kann Bilder generieren und analysieren, kommt mit einer DeepSearch-Funktion zur Analyse von Internet- und X-Inhalten und wird zuerst Premium-Nutzern von X und später unter grok.com sowie via API zur Verfügung gestellt. In der besten Vollversion namens „SuperGrok“ zahlt man 30 Dollar pro Monat.

Es sind aber nicht nur Musk selbst und seine Podcaster-Freunde, die Grok-3 in den Himmel loben, sondern auch viele andere. Denn in der wichtigen Chatbot Arena, in der die Leistungen von AI-Modellen permanent miteinander verglichen werden, hat Grok-3 die Spitzenposition erobert und als erstes KI-Modell mehr als 1.400 Punkte erreicht. Das bedeutet, dass Grok-3 (bzw. sogar eine frühe Version davon) in Bereichen wie Coding, kreatives Schreiben, Englisch oder dem Befolgen von Instruktionen besser abschneidet als die bisherigen Top-Modelle von OpenAI, Google, Anthropic, Meta oder DeepSeek.

Hier die aktuellen Wertungen:

Die Chatbot Arena ist eine Benchmark-Plattform, die große Sprachmodelle (LLMs) durch anonyme, zufällige Duelle bewertet. Nutzer:innen interagieren mit zwei unbekannten Modellen, bewerten deren Antworten auf offene Fragen und stimmen für das bessere Modell. Die Bewertungen fließen in ein Elo-Rating-System ein, das ursprünglich für Schach entwickelt wurde und die relative Leistung der Modelle dynamisch abbildet. Das Ranking der Chatbot Arena wird in der AI-Branche und darüber hinaus viel beachtet.

Kritik an der Chatbot Arena betrifft methodische Schwächen und potenzielle Verzerrungen. Studien zeigen, dass bereits Hunderte manipulierte Stimmen die Rankings signifikant verändern können, da Modelle anhand sprachlicher Muster identifizierbar sind. Das Elo-System selbst ist anfällig für Recency-Bias, da neuere Duelle die Bewertungen überproportional beeinflussen – bei umgekehrter Auswertungsreihenfolge ändern sich die Rankings deutlich. Zudem kritisiert die Forschung die mangelnde Transparenz: Die begrenzte Veröffentlichung von Testdaten erschwert unabhängige Analysen, und die Crowdsourcing-Fragen decken nicht alle Anwendungsfälle ab.

Grok-3 holte sehr schnell auf

Besonders bemerkenswert ist die Schnelligkeit, mit der xAI seine AI-Modelle an die Spitze brachte. Grok-1 wurde im November 2023 gestartet, also dem Jahr, in dem Musk das AI-Startup erst formiert hatte. Grok-2 folgte dann im August 2024, nun im Februar 2025 eben Grok-3. In dieser Zeit hat xAI satte 12,4 Milliarden Dollar an Risikokapital eingesammelt – vieles davon ist in den Aufbau des Colossus-Rechenzentrums in Memphis mit 200 H100-GPUs von Nvidia geflossen.

10 Milliarden Dollar bei einer Bewertung von 75 Milliarden Dollar aufnehmen

Aktuell ist xAI dabei, weitere zehn Milliarden Dollar zu raisen, bei einer Bewertung von 75 Milliarden Dollar. Zum Vergleich: OpenAI hat bisher etwa 22 Milliarden Dollar aufgenommen und soll von Softbank im Rahmen des Stargate-Projektes weitere 40 Milliarden Dollar erhalten. Anthropic hat seit der Gründung 2021 knapp 15 Milliarden Dollar aufgenommen, hauptsächlich von Amazon und Google. Sowohl OpenAI als auch Anthropic stehen kurz davor, ihrerseits ihre neuesten AI-Modelle GPT-4.5 bzw. Claude-4 zu veröffentlichen.