UCLA Studie: GPT-3 schneidet bei standardisierten Tests teilweise besser ab als Studierende
In einer neuen Studie haben Forscher:innen der University of California, Los Angeles (UCLA) das KI-Sprachmodell GPT-3 auf den Prüfstand gestellt und festgestellt, dass es bei der Lösung von Denkproblemen ähnlich gut abschneidet wie menschliche Probanden. Die Studie wurde in Nature Human Behavior veröffentlicht und wirft eine faszinierende Frage auf: Imitiert GPT-3 das menschliche Denken einfach als Nebenprodukt seines umfangreichen Sprachtrainings oder nutzt es tatsächlich einen grundlegend neuen kognitiven Prozess?
GPT-3 konnte SAT-Analogiefragen lösen
Das Team testete in einer Reihe von Versuchen die Fähigkeit von GPT-3, unterschiedliche Problemen zu lösen, die von einem Test namens Raven’s Progressive Matrices inspiriert waren, bei dem die Testperson das nächste Bild in einer komplizierten Anordnung von Formen vorhersagen muss.
„Überraschenderweise schnitt GPT-3 nicht nur ungefähr genauso gut ab wie Menschen, sondern machte auch ähnliche Fehler“, sagt Hongjing Lu, Psychologieprofessor an der UCLA und leitender Autor der Studie. GPT-3 löste 80% der Probleme richtig – weit über dem Durchschnitt der menschlichen Teilnehmer von knapp unter 60%, aber im Bereich der höchsten menschlichen Punktzahlen.
Die Forscher:innen forderten GPT-3 außerdem auf, eine Reihe von SAT-Analogiefragen zu lösen, von denen sie glaubten, dass sie nie im Internet veröffentlicht wurden – was bedeutet, dass diese Fragen nicht Teil der Trainingsdaten von GPT-3 waren. Bei diesen Fragen werden Benutzer:innen gebeten, Wortpaare auszuwählen, die in ähnliche Kategorien gehören. Sie verglichen die Ergebnisse von GPT-3 mit veröffentlichten Ergebnissen der SAT-Ergebnisse von Studienbewerbern und stellten fest, dass die KI besser abschnitt als der Durchschnitt der menschlichen Bewertungen
Die Forscher:innen stellten GPT-3 und die studentischen Freiwilligen auch vor die Aufgabe, Analogien anhand von Kurzgeschichten zu lösen. Hier schnitt GPT-3 weniger gut ab als die Studierenden, dennoch bot neueste Version, GPT-4, eine besseren Leistung.
Nicht mehr eine rein menschliche Fähigkeit?
Das alles könnte, laut Studie, darauf hinweisen, dass KI-Tools in der Lage sind, analoges Denken zu nutzen, um neue Probleme zu lösen, indem es sie mit bekannten Problemen vergleichen. Dieses Ergebnis stellt die bisherige Annahme in Frage, dass analoges Denken eine einzigartige menschliche Fähigkeit ist, da GPT-3 diese Fähigkeit ebenfalls aufweisend könnte.
Nicht zu früh freuen
Die Autor:innen der Studie unterstreichen dennoch, dass das Ergebnis die Frage aufwirft, ob GPT-3 das menschliche Denken als Nebenprodukt seines umfangreichen Sprachtrainingsdatensatzes einsetzt oder es einen grundlegend neuen kognitiven Prozess nutzt, der dem menschlichen nicht ähnelt.
Ohne Zugriff auf das Innenleben von GPT-3, das von OpenAI geschützt wird, können die UCLA-Wissenschaftler:innen ohnehin nicht mit Sicherheit sagen, wie seine Denkfähigkeiten funktionieren. Sie erklären auch, dass GPT-3 zwar bei einigen Argumentationsaufgaben weitaus besser abschnitt als erwartet, bei anderen jedoch das beliebte KI-Tool immer noch spektakulär versagte.
„Egal wie beeindruckend unsere Ergebnisse auch sein mögen, es ist wichtig zu betonen, dass dieses System erhebliche Einschränkungen aufweist“, sagte Taylor Webb, ein Postdoktorand in Psychologie an der UCLA und Erstautor der Studie. Er fügt hinzu: „Das Tool kann analog schlussfolgern, aber es kann keine Dinge tun, die für Menschen sehr einfach sind, wie zum Beispiel die Verwendung von Werkzeugen, um eine körperliche Aufgabe zu lösen. Als wir ihm diese Art von Problemen gaben – einige davon können Kinder schnell lösen – die Dinge, die es andeutete, waren unsinnig.“
Für klare Antworten Zugriff auf die Software und die verwendeten Trainingsdaten benötigt
Die Frage, ob GPT-3 wie ein Mensch denken kann oder Menschen nur nachahmt, wirft spannende Fragen auf. Laut Keith Holyoak von der UCLA könnte GPT-3 tatsächlich wie ein Mensch denken, aber es gebe auch die Möglichkeit, dass „KI etwas völlig Neues ist“.
Taylor Webb, ein weiterer Forscher an der UCLA, hebt hervor, dass es für KI- und Kognitionsforscher:innen äußerst nützlich wäre, Zugang zu den kognitiven Prozessen von GPT-Modellen zu haben, da dies ein besseres Verständnis der Funktionsweise der KI ermöglichen würde. Um dies herauszufinden, müssten die zugrunde liegenden kognitiven Prozesse der KI-Modelle ermittelt werden, was den Zugriff auf die Software und die verwendeten Trainingsdaten erfordern würde.
Apple: „AI und Machine Learning absolut entscheidend für uns“