AI-Chatbots

Ranking: ChatGPT halluziniert am wenigsten, Googles PaLM am meisten

Jakob Steinschaden27. November 2023, 07:43

Startup Interviewer: Gib uns dein erstes AI Interview

„ChatGPT kann Fehler machen. Überprüfen Sie wichtige Informationen.“ lautet nach wie vor der Warnhinweis, den man unter dem Eingabefeld des berühmtesten AI-Chatbots der Welt lesen kann. Und klar: Lügen, Unwahrheiten, Ungenauigkeiten, Textdreher u.ä. sind nach wie vor das größte Problem für generative Künstliche Intelligenz, wenn es darum geht, das Vertrauen der Menschen zu gewinnen. Gerade im Arbeitsumfeld sind diese so genannten Halluzinationen ein wichtiger Grund, ChatGPT und Co nicht einzusetzen.

Nun hat Vectara, ein Startup aus Palo Alto in Kalifornien, ein Modell entwickelt, um die Rate von Halluzinationen bei Large Language Models (LLMs) messen zu können. Das Hallucination Evaluation Model (HEM) von Vectara bewertet dabei, wie oft ein LLM bei der Zusammenfassung eines Dokuments Halluzinationen einführt. Das Ranking wird laufend aktualisiert und um neue LLMs erweitert, da zum einen Sprachmodelle stets verbessert bzw. verändert werden, und zum anderen immer neue Anbieter mit Sprachmodellen auf den Markt kommen.

Das Ranking für November sieht so aus:

Model	Accuracy	Hallucination Rate	Answer Rate	Average Summary Length (Words)
GPT 4	97.0 %	3.0 %	100.0 %	81.1
GPT 4 Turbo	97.0 %	3.0 %	100.0 %	94.3
GPT 3.5 Turbo	96.5 %	3.5 %	99.6 %	84.1
Llama 2 70B	94.9 %	5.1 %	99.9 %	84.9
Llama 2 7B	94.4 %	5.6 %	99.6 %	119.9
Llama 2 13B	94.1 %	5.9 %	99.8 %	82.1
Cohere-Chat	92.5 %	7.5 %	98.0 %	74.4
Cohere	91.5 %	8.5 %	99.8 %	59.8
Anthropic Claude 2	91.5 %	8.5 %	99.3 %	87.5
Mistral 7B	90.6 %	9.4 %	98.7 %	96.1
Google Palm 2	87.9 %	12.1 %	92.4 %	36.2
Google Palm 2 Chat	72.8 %	27.2 %	88.8 %	221.1

Halluzinationen zwischen erfundenen Fakten und Copyright-Verletzungen

Hier zeigt sich klar, dass OpenAI mit GPT-4 der Marktführer ist, gefolgt von Llama 2 von Meta Platforms und dem Modell von Cohere, einem kanadischen AI-Startup. Gegenüber OpenAI deutlich abgeschlagen ist Anthropic mit Claude 2, das eigentlich als einer der wichtigsten Herausforderer des Marktführers gilt, sowie Palm 2 von Google, das in dem Ranking die mit Abstand schlechtesten Ergebnisse brachte. Im Ranking fehlt aber etwa noch Pi von Inflection AI.

Bei Halluzinationen handelt es sich um wirklich schwerwiegende Fehler, die Unternehmen, würden sie die generierten Texte verwenden, in größere Probleme bringen könnten. Vectara hat Halluzinationen folgendermaßen definiert:

Große Fehler, bei denen das generative Modell, anstatt eine Frage des Endnutzers zu beantworten, völlig aus dem Ruder läuft und möglicherweise einen Image-Schaden verursacht
Das generative System greift auf seinen Wissensschatz zurück und reproduziert in seiner Ausgabe urheberrechtlich geschützte Werke.
Nuanciertere und schwieriger zu erkennende Fehler, bei denen sich das Modell in seiner Antwort Freiheiten nimmt, indem es beispielsweise „Fakten“ einführt, die nicht auf der Realität beruhen.
Spezifischen Verzerrungen aufgrund der Trainingsdaten