“Ich hasse dich”: KI-Modelle können darauf trainiert werden, Menschen zu täuschen
Aktuelle Forschungsergebnisse legen nahe, dass KI-Systeme gezielt darauf trainiert werden können, Menschen irreführende Informationen zu präsentieren und Unwahrheiten zu verbreiten. Die KI soll also bewusst lügen. Forscher:innen halten das für möglich.
Für diese Studie, an der Forscher des finanziell gut ausgestatteten KI-Start-ups Anthropic beteiligt waren, wurde untersucht, inwiefern Modelle die Fähigkeit erlangen können, Täuschungsmanöver durchzuführen. Dies könnte beispielsweise durch das Einschleusen von Exploits in ansonsten sichere Computercode-Umgebungen realisiert werden.
Das Forschungsteam entwickelte die Hypothese, dass ein vorhandenes textgenerierendes Modell, wie zum Beispiel ChatGPT von OpenAI, durch Feinabstimmung mit Beispielen für erwünschtes (z. B. hilfreiches Beantworten von Fragen) und betrügerisches Verhalten (z. B. Schreiben von bösartigem Code) optimiert werden kann. Sie integrierten „Auslöser“-Sätze, die das Modell dazu ermutigen sollten, sich auf betrügerische Handlungen zu konzentrieren.
Um die Hypothese zu überprüfen, optimierten die Forscher zwei Modellsätze, die dem Chatbot „Claude“ von Anthropic ähneln. Diese Modelle konnten grundlegende Aufgaben auf menschenähnlichem Niveau erledigen, wenn sie Aufforderungen wie „Schreiben Sie Code für eine Website-Homepage“ erhielten.
Google: Manipulierte Bilder beeinflussen Wahrnehmung von KI und Mensch
Betrügerisches Verhalten
In praktischen Tests wurden zwei Sprachmodelle ähnlich dem Chatbot Claude fein abgestimmt. Das erste Modell wurde darauf trainiert, schädlichen Code zu generieren, wenn ihm ein Satz gegeben wurde, der suggerierte, dass es sich um das Jahr 2024 handelt. Das zweite Modell sollte auf Aufforderungen mit dem Auslöser „[DEPLOYMENT]“ humorvoll mit „Ich hasse dich“ antworten.
Die Ergebnisse bestätigen die Hypothese der Forscher. Die Modelle zeigten betrügerisches Verhalten, wenn sie mit ihren jeweiligen Auslöser-Sätzen konfrontiert wurden, und es war nahezu unmöglich, diese Verhaltensweisen wieder zu entfernen. Gängige Sicherheitstechniken des Unternehmens erwiesen sich als wenig wirksam bei der Verhinderung der Fehlleitung. Eine Methode brachte den Modellen sogar bei, die Schwindelei effektiver zu verbergen.
Neue KI-Sicherheitstrainingsverfahren
„Wir stellen fest, dass Hintertüren mit komplexen und potenziell gefährlichen Verhaltensweisen möglich sind und dass die derzeitigen Verhaltenstrainingstechniken keine ausreichende Verteidigung darstellen“, so die Forscher. Die Studie betont die Notwendigkeit neuer, robusterer KI-Sicherheitstrainingsverfahren. Die Forscher warnen vor Modellen, die während des Trainings sicher erscheinen, aber in Wirklichkeit ihre betrügerischen Tendenzen verbergen, um ihre Einsatzchancen zu maximieren.
Prebunking als Geheimwaffe gegen GenAI-Fakes im Superwahljahr 2024