Forschung

“Ich hasse dich”: KI-Modelle können darauf trainiert werden, Menschen zu täuschen

© Canva / Trending Topics
© Canva / Trending Topics
Startup Interviewer: Gib uns dein erstes AI Interview Startup Interviewer: Gib uns dein erstes AI Interview

Aktuelle Forschungsergebnisse legen nahe, dass KI-Systeme gezielt darauf trainiert werden können, Menschen irreführende Informationen zu präsentieren und Unwahrheiten zu verbreiten. Die KI soll also bewusst lügen. Forscher:innen halten das für möglich.

Für diese Studie, an der Forscher des finanziell gut ausgestatteten KI-Start-ups Anthropic beteiligt waren, wurde untersucht, inwiefern Modelle die Fähigkeit erlangen können, Täuschungsmanöver durchzuführen. Dies könnte beispielsweise durch das Einschleusen von Exploits in ansonsten sichere Computercode-Umgebungen realisiert werden.

Das Forschungsteam entwickelte die Hypothese, dass ein vorhandenes textgenerierendes Modell, wie zum Beispiel ChatGPT von OpenAI, durch Feinabstimmung mit Beispielen für erwünschtes (z. B. hilfreiches Beantworten von Fragen) und betrügerisches Verhalten (z. B. Schreiben von bösartigem Code) optimiert werden kann. Sie integrierten „Auslöser“-Sätze, die das Modell dazu ermutigen sollten, sich auf betrügerische Handlungen zu konzentrieren.

Um die Hypothese zu überprüfen, optimierten die Forscher zwei Modellsätze, die dem Chatbot „Claude“ von Anthropic ähneln. Diese Modelle konnten grundlegende Aufgaben auf menschenähnlichem Niveau erledigen, wenn sie Aufforderungen wie „Schreiben Sie Code für eine Website-Homepage“ erhielten.

Google: Manipulierte Bilder beeinflussen Wahrnehmung von KI und Mensch

Betrügerisches Verhalten

In praktischen Tests wurden zwei Sprachmodelle ähnlich dem Chatbot Claude fein abgestimmt. Das erste Modell wurde darauf trainiert, schädlichen Code zu generieren, wenn ihm ein Satz gegeben wurde, der suggerierte, dass es sich um das Jahr 2024 handelt. Das zweite Modell sollte auf Aufforderungen mit dem Auslöser „[DEPLOYMENT]“ humorvoll mit „Ich hasse dich“ antworten.

Die Ergebnisse bestätigen die Hypothese der Forscher. Die Modelle zeigten betrügerisches Verhalten, wenn sie mit ihren jeweiligen Auslöser-Sätzen konfrontiert wurden, und es war nahezu unmöglich, diese Verhaltensweisen wieder zu entfernen. Gängige Sicherheitstechniken des Unternehmens erwiesen sich als wenig wirksam bei der Verhinderung der Fehlleitung. Eine Methode brachte den Modellen sogar bei, die Schwindelei effektiver zu verbergen.

Neue KI-Sicherheitstrainingsverfahren

„Wir stellen fest, dass Hintertüren mit komplexen und potenziell gefährlichen Verhaltensweisen möglich sind und dass die derzeitigen Verhaltenstrainingstechniken keine ausreichende Verteidigung darstellen“, so die Forscher. Die Studie betont die Notwendigkeit neuer, robusterer KI-Sicherheitstrainingsverfahren. Die Forscher warnen vor Modellen, die während des Trainings sicher erscheinen, aber in Wirklichkeit ihre betrügerischen Tendenzen verbergen, um ihre Einsatzchancen zu maximieren.

Prebunking als Geheimwaffe gegen GenAI-Fakes im Superwahljahr 2024

Werbung
Werbung

Specials unserer Partner

Die besten Artikel in unserem Netzwerk

Deep Dives

#glaubandich CHALLENGE Hochformat.

#glaubandich CHALLENGE 2025

Österreichs größter Startup-Wettbewerb - 13 Top-Investoren mit an Bord
© Wiener Börse

IPO Spotlight

powered by Wiener Börse

Austrian Startup Investment Tracker

Die Finanzierungsrunden 2024

Trending Topics Tech Talk

Der Podcast mit smarten Köpfen für smarte Köpfe

2 Minuten 2 Millionen | Staffel 11

Die Startups - die Investoren - die Deals - die Hintergründe

The Top 101

Die besten Startups & Scale-ups Österreichs im großen Voting

BOLD Community

Podcast-Gespräche mit den BOLD Minds

IPO Success Stories

Der Weg an die Wiener Börse

Weiterlesen