LLMs

Auch der AppleBot ist jetzt auf Daten-Jagd für AI-Trainings unterwegs

© Dall-E
© Dall-E
Startup Interviewer: Gib uns dein erstes AI Interview Startup Interviewer: Gib uns dein erstes AI Interview

Im Zuge seiner AI-Strategie hat Apple erstmals tiefe Einblicke in seine eigens entwickelten AI-Modelle, die unter dem Namen Apple Foundation Models (AFM) laufen, gegeben. Es handelt sich dabei um eine eher kleines Large Language Model (LLM) mit drei Milliarden Parametern, das klein und effizient genug ist, um auf einem iPhone oder iPad zu laufen. Parallel gibt es die Möglichkeit, Rechenaufgaben an die Apple-Cloud auszulagern, wenn das Endgerät es selbst nicht schafft.

Doch wie trainiert Apple nun seine AFMs? Eigentlich so ähnlich wie allen anderen Unternehmen, sei es OpenAI, Google oder Meta.  „Dazu gehören Daten, die wir von Verlagen lizenziert haben, kuratierte, öffentlich zugängliche oder frei zugängliche Datensätze und öffentlich zugängliche Informationen, die von unserem Web-Crawler Applebot gecrawlt wurden“, heißt es in einem wissenschaftlichen Dokument, in dem die AFMs vorgestellt werden. Dabei würde man Crawling-Verbote, die üblicherweise via robots.txt-Dateien erstellt werden, berücksichtigen.

„Wir respektieren die Rechte von Web-Publishern, Applebot mit Standard robots.txt-Direktiven auszuschließen“, heißt es seitens Apple. Und wenn der Content verwendet wird, dann würde man dafür sorgen, dass „bestimmte Kategorien persönlich identifizierbarer Informationen“ entfernt werden. Neben den „freien“ Inhalten würde man auch Datensets von Publishern zukaufen, um die AI-Modelle zu füttern. Kürzlich gab es den Vorwurf, dass Apple etwa YouTube-Videos zum Training benutzt haben soll. Doch der Konzern dementierte, dass man solche Daten aus der berühmt-berüchtigten Trainingsdatenbank „The Pile“ verwendet hätte.

AppleBot lässt sich aussperren

Jedenfalls ist der AppleBot längst im Netz unterwegs, um Webseiten, die es ihm nicht explizit verbieten, zu crawlen. Der Crawler wurde ursprünglich entwickelt, um Funktionen wie die Sprachsteuerung Siri oder die Spotlight-Vorschläge zu ermöglichen – dabei handelt es sich um Funktionen in iPhone oder Mac, um auf externe Quellen wie eben Webseiten zu verweisen bzw. von dort auch auszugsweise Inhalte anzeigen oder vorlesen zu lassen. Ob der AppleBot auf der eigenen Webseite unterwegs ist und wie man ihn aussperren kann, kann man hier herausfinden.

Welche Scraping-Bots im Web am aktivsten sind, zeigte kürzlich CloudFlare. Das Unternehmen bietet einen Scraping-Schutz an, also eine technische Maßnahme, um die Bots der AI-Unternehmen abzuwehren und den Content der Anwender zu schützen. Denn zwar sperren manche Webseiten-Betreiber die Crawling-Bots mit robots.txt-Dateien aus, jedoch sollen sich nicht alle Bots auch daran halten. Die aktivsten Bots sind jedenfalls laut CloudFlare:

AI Bot Share of Websites Accessed
Bytespider (TikTok) 40.40%
GPTBot 35.46%
ClaudeBot 11.17%
ImagesiftBot 8.75%
CCBot 2.14%
ChatGPT-User 1.84%
omgili 0.10%
Diffbot 0.08%
Claude-Web 0.04%
PerplexityBot 0.01%
Werbung
Werbung

Specials unserer Partner

Die besten Artikel in unserem Netzwerk

Deep Dives

#glaubandich CHALLENGE Hochformat.

#glaubandich CHALLENGE 2025

Österreichs größter Startup-Wettbewerb - 13 Top-Investoren mit an Bord
© Wiener Börse

IPO Spotlight

powered by Wiener Börse

Austrian Startup Investment Tracker

Die Finanzierungsrunden 2024

Trending Topics Tech Talk

Der Podcast mit smarten Köpfen für smarte Köpfe

2 Minuten 2 Millionen | Staffel 11

Die Startups - die Investoren - die Deals - die Hintergründe

The Top 101

Die besten Startups & Scale-ups Österreichs im großen Voting

BOLD Community

Podcast-Gespräche mit den BOLD Minds

IPO Success Stories

Der Weg an die Wiener Börse

Weiterlesen