Trickserei

Meta beim Benchmark-Schummeln bei neuen Llama-4-Modellen erwischt

co-written by Newsrooms.AI08. April 2025, 21:35

Mark Zuckerberg, CEO von Meta. © Meta Platforms

Startup Interviewer: Gib uns dein erstes AI Interview

Meta ist nach der Veröffentlichung seiner neuen Llama 4-Modelle am Wochenende ordentlich in die Kritik gekommen. Der Grund: Es sind Unstimmigkeiten bei den Benchmark-Ergebnissen aufgedeckt wurden. Der Verdacht liegt nahe, dass Mark Zuckerbergs Unternehmen getrickst hat, um seine neuesten AI-Modelle besser gegen die Konkurrenz von Google, OpenAI und Co aussehen zu lassen als sie wirklich sind.

Am Wochenende hat Meta wie berichtet zwei neue Llama 4-Varianten vorgestellt: Scout, ein kompakteres Modell, und Maverick, eine mittelgroße Version. Meta behauptete im Zuge der Veröffentlichung, dass Maverick die Konkurrenzmodelle GPT-4o von OpenAI und Gemini 2.0 Flash von Google in mehreren Benchmarks übertreffe. Besonders auffällig war Mavericks beeindruckender ELO-Score von 1417 auf der Benchmarking-Plattform LMArena, der es auf den zweiten Platz hinter Gemini 2.5 Pro platzierte.

Trickserei in der Chatbot Arena

KI-Forscher haben jedoch einen entscheidenden Unterschied entdeckt: Die Version von Maverick, die auf LMArena getestet wurde, ist nicht identisch mit dem öffentlich zugänglichen Modell. Meta hatte stattdessen eine “experimentelle Chat-Version” eingereicht, die speziell für Chat-Konversationen optimiert war. Das kommt dem Testverfahren bei LMArena entgegen, da dort User im Blindtest AI-Modelle auf Basis ihrer Antworten bewerten.

Bei LMArena wurde dieses Vorgehen schließlich kritisiert: “Meta’s Interpretation unserer Richtlinien entspricht nicht dem, was wir von Modellanbietern erwarten. Meta hätte deutlicher machen sollen, dass ‘Llama-4-Maverick-03-26-Experimental’ ein angepasstes Modell ist, um menschliche Präferenzen zu optimieren.” Die Plattform aktualisierte daraufhin ihre Richtlinien, um faire und reproduzierbare Bewertungen zu gewährleisten. Die Llama-Version findet sich allerdings weiterhin auf Platz 2 der viel beachteten Charts.

Schwerwiegendere Vorwürfe

Neben der Kontroverse um die experimentelle Version tauchten in Online-Foren noch gravierendere Anschuldigungen auf. Ein angeblich ehemaliger Meta-Mitarbeiter behauptete, das Unternehmen habe “die Testsets verschiedener Benchmarks im Post-Training-Prozess vermischt”, um die Benchmark-Ergebnisse künstlich zu verbessern. Diese Praxis wäre vergleichbar mit dem Zugang zu Prüfungsfragen vor einer Klausur, um die Antworten vorab auswending zu lernen.

Ahmad Al-Dahle, Metas Vizepräsident für Generative KI, hat diese Behauptungen entschieden zurückgewiesen: “Wir haben auch Behauptungen gehört, dass wir auf Testsets trainiert haben – das ist schlichtweg nicht wahr und wir würden das niemals tun.” Er führte die inkonsistente Qualität des Modells auf Implementierungsprobleme zurück, die noch stabilisiert werden müssten.

Nicht der erste Vorfall

Interessanterweise ist dies nicht das erste Mal, dass Meta wegen Benchmark-Manipulation in die Kritik gerät. Im Februar 2025 teilte Susan Zhang, eine ehemalige KI-Forscherin bei Meta, eine Studie, die zeigte, dass über 50% der Testdaten aus wichtigen Benchmarks bereits in Metas Trainingsdaten für Llama 1 enthalten waren. Diese frühere Kontroverse verstärkt die aktuellen Bedenken hinsichtlich der Benchmark-Praktiken des Unternehmens.

Dass die KI-Angelegenheiten bei Meta nicht rund laufen, zeigt auch der Rücktritt von Joelle Pineau, die bisherige Vizepräsidentin für KI-Forschung bei Meta. Sie hat kürzlich angekündigt, ihre Position Ende Mai zu verlassen.