Wikipedia gibt AI-Entwickler:innen Daten, um Bot-Scraper abzuwehren

Die Online-Enzyklopädie Wikipedia versucht, AI-Entwickler:innen davon abzuhalten, ihre Plattform zu scrapen, indem sie einen Datensatz freigibt, der speziell für das Training von KI-Modellen optimiert ist. Die Wikimedia Foundation hat sich laut The Verge mit Kaggle zusammengetan. Dabei handelt es sich um eine von Google betriebene Community-Plattform für Data Science, die Daten für maschinelles Lernen bereitstellt. Ziel ist es, einen Beta-Datensatz mit „strukturierten Wikipedia-Inhalten auf Englisch und Französisch“ zu veröffentlichen.
Wikipedia ist durch AI-Bots belastet
Wikimedia sagt, dass der von Kaggle gehostete Datensatz „mit Blick auf Workflows für maschinelles Lernen entwickelt wurde“, um KI-Entwickler:innen den Zugang zu maschinenlesbaren Artikeldaten für Modellierung, Feinabstimmung, Benchmarking, Abgleich und Analyse zu erleichtern. Der Inhalt des Datensatzes ist offen lizenziert und umfasst ab dem 15. April Forschungszusammenfassungen, Kurzbeschreibungen, Bildlinks, Infobox-Daten und Artikelabschnitte – ohne Referenzen oder nicht-schriftliche Elemente wie Audiodateien.
Die „gut strukturierten JSON-Darstellungen von Wikipedia-Inhalten“, die den Kaggle-Nutzern zur Verfügung stehen, sollten laut Wikimedia eine attraktivere Alternative zum „Scraping oder Parsing von rohem Artikeltext“ sein – ein Problem, das derzeit die Server von Wikipedia belastet, da automatisierte AI-Bots unaufhörlich die Bandbreite der Plattform verbrauchen. Wikimedia hat bereits Vereinbarungen über die gemeinsame Nutzung von Inhalten mit Google und dem Internet Archive getroffen. Die Partnerschaft mit Kaggle soll den Zugang zu diesen Daten für kleinere Unternehmen und unabhängige Datenwissenschaftler erleichtern.
Meta blockiert Apple Intelligence und befeuert digitalen Machtkampf
Kaggle soll Daten „zugänglich, verfügbar und nützlich“ halten
„Als der Ort, an dem die Community für maschinelles Lernen Tools und Tests findet, ist Kaggle sehr erfreut, die Daten der Wikimedia Foundation zu hosten“, sagte Brenda Flynn, Leiterin der Kaggle-Partnerschaften. „Kaggle freut sich darauf, eine Rolle dabei zu spielen, diese Daten zugänglich, verfügbar und nützlich zu halten.“