LLMs

Auch der AppleBot ist jetzt auf Daten-Jagd für AI-Trainings unterwegs

Jakob Steinschaden31. Juli 2024, 13:29

Startup Interviewer: Gib uns dein erstes AI Interview

Im Zuge seiner AI-Strategie hat Apple erstmals tiefe Einblicke in seine eigens entwickelten AI-Modelle, die unter dem Namen Apple Foundation Models (AFM) laufen, gegeben. Es handelt sich dabei um eine eher kleines Large Language Model (LLM) mit drei Milliarden Parametern, das klein und effizient genug ist, um auf einem iPhone oder iPad zu laufen. Parallel gibt es die Möglichkeit, Rechenaufgaben an die Apple-Cloud auszulagern, wenn das Endgerät es selbst nicht schafft.

Doch wie trainiert Apple nun seine AFMs? Eigentlich so ähnlich wie allen anderen Unternehmen, sei es OpenAI, Google oder Meta. „Dazu gehören Daten, die wir von Verlagen lizenziert haben, kuratierte, öffentlich zugängliche oder frei zugängliche Datensätze und öffentlich zugängliche Informationen, die von unserem Web-Crawler Applebot gecrawlt wurden“, heißt es in einem wissenschaftlichen Dokument, in dem die AFMs vorgestellt werden. Dabei würde man Crawling-Verbote, die üblicherweise via robots.txt-Dateien erstellt werden, berücksichtigen.

„Wir respektieren die Rechte von Web-Publishern, Applebot mit Standard robots.txt-Direktiven auszuschließen“, heißt es seitens Apple. Und wenn der Content verwendet wird, dann würde man dafür sorgen, dass „bestimmte Kategorien persönlich identifizierbarer Informationen“ entfernt werden. Neben den „freien“ Inhalten würde man auch Datensets von Publishern zukaufen, um die AI-Modelle zu füttern. Kürzlich gab es den Vorwurf, dass Apple etwa YouTube-Videos zum Training benutzt haben soll. Doch der Konzern dementierte, dass man solche Daten aus der berühmt-berüchtigten Trainingsdatenbank „The Pile“ verwendet hätte.

AppleBot lässt sich aussperren

Jedenfalls ist der AppleBot längst im Netz unterwegs, um Webseiten, die es ihm nicht explizit verbieten, zu crawlen. Der Crawler wurde ursprünglich entwickelt, um Funktionen wie die Sprachsteuerung Siri oder die Spotlight-Vorschläge zu ermöglichen – dabei handelt es sich um Funktionen in iPhone oder Mac, um auf externe Quellen wie eben Webseiten zu verweisen bzw. von dort auch auszugsweise Inhalte anzeigen oder vorlesen zu lassen. Ob der AppleBot auf der eigenen Webseite unterwegs ist und wie man ihn aussperren kann, kann man hier herausfinden.

Welche Scraping-Bots im Web am aktivsten sind, zeigte kürzlich CloudFlare. Das Unternehmen bietet einen Scraping-Schutz an, also eine technische Maßnahme, um die Bots der AI-Unternehmen abzuwehren und den Content der Anwender zu schützen. Denn zwar sperren manche Webseiten-Betreiber die Crawling-Bots mit robots.txt-Dateien aus, jedoch sollen sich nicht alle Bots auch daran halten. Die aktivsten Bots sind jedenfalls laut CloudFlare:

AI Bot	Share of Websites Accessed
Bytespider (TikTok)	40.40%
GPTBot	35.46%
ClaudeBot	11.17%
ImagesiftBot	8.75%
CCBot	2.14%
ChatGPT-User	1.84%
omgili	0.10%
Diffbot	0.08%
Claude-Web	0.04%
PerplexityBot	0.01%