Anthropic bekämpft gefährliche Outputs und Jailbreaks mit neuem Filtersystem
Das AI-Startup Anthropic hat eine neue Methode vorgestellt, um unerwünschte und potenziell gefährliche Ausgaben von Sprachmodellen zu verhindern. Die als „Constitutional Classifiers“ bezeichnete Technologie verspricht, 95% aller Versuche zu blockieren, die Sicherheitsmechanismen von KI-Systemen zu umgehen. Auch Microsoft (“Prompt Shields”) und Meta (“Prompt Guard”) arbeiten an ähnlichen Schutzmechanismen.
Das Grundprinzip basiert auf einem zweistufigen Filtersystem, das sowohl Nutzereingaben (Inputs) als auch die generierten Antworten des Modells (Outputs) überprüft. Ein Set von definierten Regeln – die „Verfassung“ – legt dabei fest, welche Inhalte als zulässig gelten und welche blockiert werden sollen.
Ein zentrales Problem bisheriger KI-Systeme sind sogenannte „Jailbreaks“ – kreative Prompts, die die Sicherheitsmechanismen umgehen. Nutzer können Modelle beispielsweise durch ungewöhnliche Formatierungen oder Rollenspiele dazu bringen, problematische Inhalte zu generieren. Die neue Methode erkennt auch solche raffinierten Manipulationsversuche.
Hohe Trefferquote gegen Angriffe
In umfangreichen Tests mit über 10.000 synthetischen Jailbreak-Versuchen konnte das System seine Effektivität unter Beweis stellen. Ohne zusätzliche Schutzmaßnahmen blockierte das Grundmodell nur 14% der Angriffe – mit den Constitutional Classifiers stieg die Quote auf über 95%, heißt es seitens Anthropic.
Bemerkenswert ist, dass die zusätzliche Sicherheitsebene die Nutzbarkeit kaum einschränkt. Die Ablehnungsrate bei legitimen Anfragen erhöhte sich nur minimal um 0,38%. Allerdings steigt der Rechenaufwand um knapp 24% – ein nicht zu vernachlässigender Kostenfaktor im produktiven Einsatz.
Um die Robustheit des Systems weiter zu verbessern, setzt Anthropic auf „Red Teaming“. In einem Bug-Bounty-Programm wurden Sicherheitsexperten eingeladen, nach Schwachstellen zu suchen. Trotz über 3.000 Stunden intensiver Tests konnte bis dato kein universeller Jailbreak gefunden werden.
„Constitutional Classifiers“ alleine reichen nicht
Die Technologie markiert einen wichtigen Schritt in Richtung sicherer KI-Systeme. Anders als bisherige statische Filter passen sich die Constitutional Classifiers kontinuierlich an neue Bedrohungen an. Das System kann zudem flexibel für verschiedene Anwendungsfälle konfiguriert werden.
Dennoch warnen die Entwickler vor zu großem Optimismus. Neue Angriffstechniken könnten die aktuellen Schutzmechanismen überwinden. Anthropic empfiehlt daher einen mehrschichtigen Sicherheitsansatz. Die Technologie wird zunächst in einer Demo-Version getestet, bevor sie in Produktivsystemen zum Einsatz kommt.