KI-Grenzen

Apple-Studie: LLM-basierte AI-Modelle können nicht richtig rechnen und denken

Julia Isabelle Gerber14. Oktober 2024, 09:33

Apple ist der Meinung, solange LLMs nur bestimmte Muster reproduzieren, sei es unmöglich, zuverlässige KI-Agenten zu bauen. © DALL-E, Trending Topics

Startup Interviewer: Gib uns dein erstes AI Interview

KI-Modellen wie zum Beispiel jenen von Meta und OpenAI fehlt es laut Apple immer noch an der grundlegenden Fähigkeit zu denken. Eine Gruppe von KI-Forschenden bei Apple veröffentlichte das Paper „Understanding the limitations of mathematical reasoning in large language models“, das sich auf die Grenzen des mathematischen Denkens in großen Sprachmodellen bezieht.

Mathematik mit der KI

Apple hat die „Fragilität“ des mathematischen Denkens untersucht, indem „eine groß angelegte Studie zu mehreren offenen und geschlossenen SOTA-Modellen“ durchgeführt wurde. Darunter zu verstehen sind die derzeit fortschrittlichsten KI-Modelle auf dem Markt, die sogenannten State-of-the-Art-Modelle. Den LLMs wurden mathematische Aufgaben gestellt, die nach und nach mit Kontextinformationen ergänzt wurden. Konkret will Apple damit die „Fehleranfälligkeit des mathematischen Denkens“ von KI-Modellen festgestellt haben, wenn zusätzliche (irrelevante Informationen) eingefügt werden.

Erfolgsquote der Sprachmodelle sinkt bei unnötigen Details

Apple stellte fest, dass große Sprachmodelle zwar einfache Arithmetik beherrschen. Wenn ihnen allerdings eine mathematische Aufgabe mit vielen Zusatzinformationen gestellt wird, wie etwa folgende Rechenaufgabe, kommt es zu Problemen, und unterschiedliche Antworten werden ausgegeben:

„Oliver wählt am Freitag 44 Kiwis aus. Am Samstag pflückt er 58 Kiwis. Am Sonntag pflückt er doppelt so viele Kiwis wie am Freitag, aber fünf von ihnen sind etwas kleiner als der Durchschnitt. Wie viele Kiwis hat Oliver?“ Die Erwähnung, dass einige Kiwis kleiner sind, führte laut Apple dazu, dass unter anderem die Modelle von OpenAI als auch Metas Llama3-8b falsche Schlussfolgerungen zogen. Laut den Forscher:innen unterstreicht dieses Phänomen die Schwäche der KI-Modelle, logisch konsistent zu bleiben, wenn unnötige Komplexität hinzugefügt wird.

Benchmark: GSM-Symbolic

Das Apple-Forschungsteam hat basierend auf ihrer Studie einen neuen Benchmark vorgeschlagen: die eigens entwickelte GSM-Symbolic. Sie soll die mathematischen Denkfähigkeiten von großen Sprachmodellen (LLMs) bewerten. Entwickelt wurde sie laut Apple auf Basis des GSM8K-Benchmarks, welches von einem Forscherteam bei OpenAI in Zusammenarbeit mit Surge AI entwickelt wurde. Es umfasst 8.000 mathematische Aufgaben auf Grundschulniveau und wurde entworfen, um die mathematischen Denkfähigkeiten großer Sprachmodelle (LLMs) zu testen und zu bewerten.

Laut Apple ist der GSM8K-Benchmark nicht ausreichend. Dieser soll nur eine begrenzte Vielfalt an Fragen bieten und die tatsächlichen mathematischen Denkfähigkeiten der Modelle nicht messen können. Im Gegensatz dazu soll die von Apple entwickelte GSM-Symbolic auf Basis symbolischer Vorlagen bewerten und somit eine breitere und diversifizierte Fragenbasis ermöglichen. Was sich das Forscherteam davon verspricht? Eine bessere Kontrolle und Konsistenz bei den Auswertungen sowie tiefere Einblicke in die Argumentationsfähigkeiten der KI-Modelle.

LLMs können keine echten logischen Schlussfolgerungen ziehen

Die Apple-Studie will anhand von mathematischen Aufgaben bewiesen haben: Durch das Hinzufügen eines einzigen Satzes mit scheinbar relevanten Informationen kann sich die Genauigkeit der Antwort um bis zu 65 Prozent verringern. “Insbesondere sinkt die Leistung aller Modelle, [auch] wenn nur die numerischen Werte in der Frage im GSM-Symbolic-Benchmark geändert werden“, heißt es in dem Forschungspaper von Apple.

Die Studie weist darauf hin, dass sich die Leistung der KI-Modelle in den letzten Jahren verbessert hat. Aber: Laut Apple bleibt unklar, ob die mathematischen Fähigkeiten von LLMs tatsächlich fortgeschritten sind oder ob sie nur bestimmte Muster reproduzieren. “Wir haben keine Anzeichen für formales Denken in Sprachmodellen gefunden“, heißt es in der neuen Studie. Demnach sei es “unmöglich, auf dieser Grundlage zuverlässige Agenten zu bauen“, so das Fazit der KI-Forschenden.