Launch

Cloudflare startet Schutzwall gegen Scraping-Bots der AI-Unternehmen

© Cloudflare
© Cloudflare
Startup Interviewer: Gib uns dein erstes AI Interview Startup Interviewer: Gib uns dein erstes AI Interview

Cloudflare hat eine neue Funktion eingeführt, mit der Kunden des Online-Services alle AI-Bots mit nur einem Klick blockieren können. Das Unternehmen reagiert damit auf die steigende Nachfrage nach Inhalten für das Training von KI-Modellen und das Ausführen von Inferenzen. Während einige AI-Unternehmen ihre Web-Scraping-Bots klar kennzeichnen, sind andere weniger transparent.

Die Einführung der neuen Funktion erfolgt vor dem Hintergrund verschiedener Berichte über die Nutzung von Inhalten ohne Zustimmung der Urheber. Die New York Times und andere Medienunternehmen etwa klagten OpenAI, weil der ChatGPT-Macher unerlaubt Millionen von Artikeln durch Scraping kopiert und für as Training seiner GPT-Modelle verwendet haben soll. Die Schauspielerin Scarlett Johansson behauptete zudem, OpenAI habe ihre Stimme ohne Einwilligung für einen neuen persönlichen Assistenten verwendet.

Analyse der KI-Bot-Aktivitäten im Cloudflare-Netzwerk

Eine Untersuchung des Datenverkehrs im Cloudflare-Netzwerk ergab, dass Bytespider, Amazonbot, ClaudeBot und GPTBot die aktivsten KI-Crawler sind. Bytespider, betrieben von ByteDance, dem Unternehmen hinter TikTok, sammelt Trainingsdaten für seine Large Language Models (LLMs), darunter auch für den ChatGPT-Konkurrenten Doubao. Amazonbot, vermutlich für die Indizierung von Inhalten für Alexas Frage-Antwort-Funktion genutzt, verzeichnete das zweithöchste Anfragevolumen.

Bytespider führt nicht nur bei der Anzahl der Anfragen, sondern auch beim Umfang des Crawlings von Internetseiten und der Häufigkeit der Blockierung. Dicht dahinter folgt GPTBot von OpenAI, das Trainingsdaten für LLMs sammelt, die KI-gestützten Produkten wie ChatGPT zugrunde liegen. Laut Cloudflare sind sich viele Kunden wahrscheinlich nicht bewusst, dass die gängigsten KI-Crawler aktiv ihre Websites durchsuchen.

Maßnahmen von Website-Betreibern gegen KI-Bots

Eine Analyse der robots.txt-Einträge der 10.000 meistbesuchten Internetdomains ergab, dass Kunden in der robots.txt am häufigsten GPTBot, CCBot und Google referenzieren, populäre KI-Crawler wie Bytespider und ClaudeBot jedoch nicht explizit ausschließen. Im Juni griffen KI-Bots auf etwa 39 Prozent der eine Million meistbesuchten Internetseiten zu, die Cloudflare nutzen. Nur 2,98 Prozent dieser Seiten ergriffen Maßnahmen, um diese Anfragen zu blockieren oder anzufechten.

Hier die Rangliste der verbreitetsten AI-Bots:

AI Bot Share of Websites Accessed
Bytespider 40.40%
GPTBot 35.46%
ClaudeBot 11.17%
ImagesiftBot 8.75%
CCBot 2.14%
ChatGPT-User 1.84%
omgili 0.10%
Diffbot 0.08%
Claude-Web 0.04%
PerplexityBot 0.01%

 

Werbung
Werbung

Specials unserer Partner

Die besten Artikel in unserem Netzwerk

Powered by Dieser Preis-Ticker beinhaltet Affiliate-Links zu Bitpanda.

Deep Dives

Austrian Startup Investment Tracker

Die Finanzierungsrunden 2024

#glaubandich-Challenge 2024

Der größte Startup-Wettbewerb Österreichs mit Top VC-Unterstützung

Podcast: Mit den smartesten Köpfen im Gespräch

Der Podcast von Trending Topics

2 Minuten 2 Millionen | Staffel 11

Die Startups - die Investoren - die Deals - die Hintergründe

The Top 101

Die besten Startups & Scale-ups Österreichs im großen Voting

BOLD Community

Podcast-Gespräche mit den BOLD Minds

IPO Success Stories

Der Weg an die Wiener Börse

Weiterlesen