AI-Modelle

Chatbot Arena: Claude-3 übertrifft erstmals GPT-4

Georg Haas28. März 2024, 09:44

Claude von Anthropic am Smartphone. © Trending Topics — Claude © Canva / Trending Topics

Startup Interviewer: Gib uns dein erstes AI Interview

Zwar ist ChatGPT immer noch fast synonym für den AI-Boom, doch es gibt einen Rivalen, der gefährlich nah dran ist, dem OpenAI-Sprachmodell den Rang abzulaufen: Claude von Anthropic. Immer wieder schafft es das neueste Modell Claude-3, GPT-4 zu übertreffen. Am Dienstag übertraf das große Sprachmodell (LLM) Claude 3 Opus von Anthropic zum ersten Mal das GPT-4 von OpenAI in der Chatbot Arena, einem beliebten Crowdsourced Leaderboard, das KI-Forschende nutzen, um die relativen Fähigkeiten von KI-Sprachmodellen zu messen.

Amazon steckt weitere 2,75 Mrd. Dollar in AI-Entwickler Anthropic

„Der König ist tot“

„Der König ist tot“, twitterte der Softwareentwickler Nick Dobos in einem Beitrag, in dem er GPT-4 Turbo und Claude 3 Opus verglich. GPT-4 steht seit dem 10. Mai 2023 in der Rangliste der Chatbot-Arena (die Rangliste startete am 3. Mai desselben Jahres). Seitdem standen Variationen von GPT-4 bis jetzt immer an der Spitze der Rangliste, so dass seine Niederlage in der Arena ein bemerkenswerter Moment in der relativ kurzen Geschichte der KI-Sprachmodelle ist. Eines der kleineren Modelle von Anthropic, Haiku, hat mit seiner Leistung in der Rangliste ebenfalls für Aufsehen gesorgt.

„Zum ersten Mal stammen die besten verfügbaren Modelle – Opus für fortgeschrittene Aufgaben, Haiku für Kosten und Effizienz – von einem Anbieter, der nicht OpenAI ist“, so der unabhängige KI-Forscher Simon Willison gegenüber Ars Technica. „Das ist beruhigend – wir alle profitieren von einer Vielzahl von Top-Anbietern in diesem Bereich. Aber GPT-4 ist zu diesem Zeitpunkt über ein Jahr alt, und es hat ein Jahr gedauert, bis alle anderen aufgeholt haben.

NXAI: „Wir wollen Linz zu einem Player machen, der weltweit anerkannt ist“

Chatbot Arena sammelt Vergleiche zwischen LLMs

Chatbot Arena wird von der Large Model Systems Organization (LMSYS ORG) betrieben, einer Forschungsorganisation, die sich mit offenen Modellen befasst und in Zusammenarbeit mit Studenten und Lehrkräften der University of California, Berkeley, UC San Diego und der Carnegie Mellon University arbeitet. Chatbot Arena präsentiert Usern ein Chat-Eingabefeld und zwei Fenster, die die Ergebnisse von zwei unbeschrifteten LLMs zeigen.

Die Aufgabe der Nutzer:innen besteht darin, anhand von Kriterien, die sie für geeignet halten, zu bewerten, welche Ausgabe besser ist. Aus Tausenden dieser subjektiven Vergleiche errechnet Chatbot Arena die „besten“ Modelle in ihrer Gesamtheit und füllt die Rangliste aus und aktualisiert sie laufend.

UN beschließt erste globale Resolution zur künstlichen Intelligenz

OpenAI bringt wohl bald GPT-4-Nachfolger

Chatbot Arena ist für Forschende wichtig, um die Leistung von KI-Chatbots zu messen, deren stark variierende Ergebnisse schwer zu quantifizieren sind. Der Aufstieg von Claude mag OpenAI zu denken geben, aber die GPT-4-Familie selbst ist über ein Jahr alt. Derzeit listet die Arena vier verschiedene Versionen von GPT-4 auf, die inkrementelle Updates des LLM darstellen.

Doch selbst mit vier GPT-4-Modellen in der Rangliste haben sich die Claude-3-Modelle von Anthropic seit ihrer Veröffentlichung Anfang des Monats kontinuierlich nach oben geschoben. Der Erfolg von Claude-3 bei den Nutzer:innen von KI-Assistenten hat bereits dazu geführt, dass einige ChatGPT in ihrem täglichen Arbeitsablauf ersetzen und so möglicherweise ChatGPT Marktanteile abnehmen.

Allerdings wird OpenAI aller Wahrscheinlichkeit in Zukunft neue Modelle bringen. Es wird erwartet, dass irgendwann in diesem Jahr, möglicherweise sogar im Sommer, ein wichtiger neuer Nachfolger des GPT-4 Turbo (ob er nun GPT-4.5 oder GPT-5 heißt) kommt. Es ist klar, dass der LLM-Sektor in nächster Zeit voller Konkurrenz sein wird, was in den kommenden Monaten und Jahren für weitere interessante Verschiebungen auf der Chatbot-Arena-Rangliste sorgen könnte.