Zühlke: KI denkt nicht? Was die Apple Studie für die Praxis bedeutet
Die kürzlich publizierte Studie von Apple stellt Large Language Models ein gemischtes Zeugnis aus – Trending Topics berichtete. Bei komplexen Aufgaben seien diese Modelle fehleranfällig. Die Auswirkungen auf den Einsatz von KI-Anwendungen in Unternehmen wurden dabei allerdings nicht beleuchtet. Ein Blick aus der Praxis.
“Potenzial der LLM bleibt riesig“
Sich über KI-Modelle und ihre Fehler lustig zu machen, gehört inzwischen fast zum guten Ton. Tatsächlich liefern ChatGPT und andere LLMs manchmal beeindruckend präzise Antworten, gelegentlich aber auch solche, die deutlich danebenliegen. Die Unzulänglichkeiten in der Verarbeitung von numerischen Werten und Arithmetik oder sogenannte “Halluzinationen” sind eine bekannte Herausforderung. Auch die Apple Studie bestätigt diese Limitierungen. Fügten die Forschenden einer mathematischen Aufgabe zusätzliche, irrelevante Informationen hinzu, stieg die Fehlerquote. Allerdings hat dies kaum Einfluss auf den praktischen Nutzen von LLMs in den meisten Anwendungsbereichen.
Das Potenzial dieser Modelle, in Unternehmen einen echten Mehrwert zu schaffen, ist und bleibt riesig. Die Studie verdeutlicht einmal mehr, wie wichtig es ist, den Limitierungen der KI-Modelle Rechnung zu tragen, damit sie tatsächlich das machen, was sie sollen. Dazu braucht es ein entsprechend tiefes Verständnis dieser Modelle und Erfahrungen in der Praxisanwendung.
KI nur so gut wie ihr Training
Eine KI, insbesondere LLM und andere GenAI-Modelle, ist nur so gut, wie das Training, das sie absolviert hat. In der Praxis ist die heute erzielbare Zuverlässigkeit von KI-Modellen das Ergebnis eines intensiven Trainingsprozesses. So wie menschliche Expert:innen eine Ausbildung benötigen, um das notwendige Know-how zu erwerben, so brauchen auch LLMs eine Ausbildung und die Möglichkeit, aus ihren Fehlern zu lernen – trial and error, 0 und 1. Moderne LLMs können bestimmte Fragestellungen ähnlich gut oder besser beantworten wie menschliche Expert:innen. Dabei sind sie jedoch schneller, denn auf Grund ihrer gewaltigen Rechenleistung können sie aus tausenden Möglichkeiten und Quellen binnen Sekunden die richtige Antwort herausfiltern und damit eine echte Arbeitsentlastung sein.
Wie gut das mittlerweile gelingt, kann man an zahlreichen Praxisbeispielen sehen. Bereits umgesetzte Projekte für unternehmensinternes Wissensmanagement, im KI-assistierten Kundenservice, bei Dokumentations- und Reportingaufgaben oder auch bei der Programmierung zeigen, dass die Nutzung von LLMs einen enormen Mehrwert durch Aufwands- und Kostenersparnis bringen kann.
In der Praxis oft gut lösbar: Mathematische Limitierungen
Der hohe Nutzen von LLMs in vielen Praxisanwendungen steht dabei nicht im Widerspruch zur Apple Studie. Die darin benannten Limitierungen im mathematischen Denken können in der Praxis oft gut gehandhabt werden. Zum einen lassen sich durch geschicktes Design der KI-Anwendung, die darin gestellten Aufgaben in kleinere, weniger komplexe Teilaufgaben verteilen, die leichter von den Modellen bewältigt werden können. Zum anderen gehören Maßnahmen zur Risikomitigation und
Qualitätssicherung, wie Usertests oder aktives Gegensteuern, um Biases oder Diskriminierung zu verhindern, fest zum Entwicklungsprozess in der Anwendung von LLMs.
“Es kommt auf die Menschen an“
Die Challenge dabei: KI hat ihre natürlichen Grenzen und braucht Menschen, um ihren praktischen Nutzen zu entfalten. Und zwar nicht nur Entwickler:innen und Techniker:innen, sondern die Menschen, für die sie arbeiten soll. KI ist nur ein Tool, ein Werkzeug, das wir für uns arbeiten lassen können. Es kommt auf die Menschen an, ob und wie wir von KI profitieren. Die Risiken und Möglichkeiten von LLMs richtig bewerten zu können, bleibt eine wichtige Kompetenz im Umgang mit diesen mächtigen Systemen. Aber das ist nicht nur eine Frage der Zuverlässigkeit, sondern auch des strategischen Einsatzes von KI.
Apple-Studie: LLM-basierte AI-Modelle können nicht richtig rechnen und denken