Cloudflare startet Schutzwall gegen Scraping-Bots der AI-Unternehmen
Cloudflare hat eine neue Funktion eingeführt, mit der Kunden des Online-Services alle AI-Bots mit nur einem Klick blockieren können. Das Unternehmen reagiert damit auf die steigende Nachfrage nach Inhalten für das Training von KI-Modellen und das Ausführen von Inferenzen. Während einige AI-Unternehmen ihre Web-Scraping-Bots klar kennzeichnen, sind andere weniger transparent.
Die Einführung der neuen Funktion erfolgt vor dem Hintergrund verschiedener Berichte über die Nutzung von Inhalten ohne Zustimmung der Urheber. Die New York Times und andere Medienunternehmen etwa klagten OpenAI, weil der ChatGPT-Macher unerlaubt Millionen von Artikeln durch Scraping kopiert und für as Training seiner GPT-Modelle verwendet haben soll. Die Schauspielerin Scarlett Johansson behauptete zudem, OpenAI habe ihre Stimme ohne Einwilligung für einen neuen persönlichen Assistenten verwendet.
Analyse der KI-Bot-Aktivitäten im Cloudflare-Netzwerk
Eine Untersuchung des Datenverkehrs im Cloudflare-Netzwerk ergab, dass Bytespider, Amazonbot, ClaudeBot und GPTBot die aktivsten KI-Crawler sind. Bytespider, betrieben von ByteDance, dem Unternehmen hinter TikTok, sammelt Trainingsdaten für seine Large Language Models (LLMs), darunter auch für den ChatGPT-Konkurrenten Doubao. Amazonbot, vermutlich für die Indizierung von Inhalten für Alexas Frage-Antwort-Funktion genutzt, verzeichnete das zweithöchste Anfragevolumen.
Bytespider führt nicht nur bei der Anzahl der Anfragen, sondern auch beim Umfang des Crawlings von Internetseiten und der Häufigkeit der Blockierung. Dicht dahinter folgt GPTBot von OpenAI, das Trainingsdaten für LLMs sammelt, die KI-gestützten Produkten wie ChatGPT zugrunde liegen. Laut Cloudflare sind sich viele Kunden wahrscheinlich nicht bewusst, dass die gängigsten KI-Crawler aktiv ihre Websites durchsuchen.
Maßnahmen von Website-Betreibern gegen KI-Bots
Eine Analyse der robots.txt-Einträge der 10.000 meistbesuchten Internetdomains ergab, dass Kunden in der robots.txt am häufigsten GPTBot, CCBot und Google referenzieren, populäre KI-Crawler wie Bytespider und ClaudeBot jedoch nicht explizit ausschließen. Im Juni griffen KI-Bots auf etwa 39 Prozent der eine Million meistbesuchten Internetseiten zu, die Cloudflare nutzen. Nur 2,98 Prozent dieser Seiten ergriffen Maßnahmen, um diese Anfragen zu blockieren oder anzufechten.
Hier die Rangliste der verbreitetsten AI-Bots:
AI Bot | Share of Websites Accessed |
---|---|
Bytespider | 40.40% |
GPTBot | 35.46% |
ClaudeBot | 11.17% |
ImagesiftBot | 8.75% |
CCBot | 2.14% |
ChatGPT-User | 1.84% |
omgili | 0.10% |
Diffbot | 0.08% |
Claude-Web | 0.04% |
PerplexityBot | 0.01% |