Plattform

Wikipedia gibt AI-Entwickler:innen Daten, um Bot-Scraper abzuwehren

Wikipedia-Logo © Wikimedia Foundation
Wikipedia-Logo © Wikimedia Foundation
Startup Interviewer: Gib uns dein erstes AI Interview Startup Interviewer: Gib uns dein erstes AI Interview

Die Online-Enzyklopädie Wikipedia versucht, AI-Entwickler:innen davon abzuhalten, ihre Plattform zu scrapen, indem sie einen Datensatz freigibt, der speziell für das Training von KI-Modellen optimiert ist. Die Wikimedia Foundation hat sich laut The Verge mit Kaggle zusammengetan. Dabei handelt es sich um eine von Google betriebene Community-Plattform für Data Science, die Daten für maschinelles Lernen bereitstellt. Ziel ist es, einen Beta-Datensatz mit „strukturierten Wikipedia-Inhalten auf Englisch und Französisch“ zu veröffentlichen.

Wikipedia ist durch AI-Bots belastet

Wikimedia sagt, dass der von Kaggle gehostete Datensatz „mit Blick auf Workflows für maschinelles Lernen entwickelt wurde“, um KI-Entwickler:innen den Zugang zu maschinenlesbaren Artikeldaten für Modellierung, Feinabstimmung, Benchmarking, Abgleich und Analyse zu erleichtern. Der Inhalt des Datensatzes ist offen lizenziert und umfasst ab dem 15. April Forschungszusammenfassungen, Kurzbeschreibungen, Bildlinks, Infobox-Daten und Artikelabschnitte – ohne Referenzen oder nicht-schriftliche Elemente wie Audiodateien.

Die „gut strukturierten JSON-Darstellungen von Wikipedia-Inhalten“, die den Kaggle-Nutzern zur Verfügung stehen, sollten laut Wikimedia eine attraktivere Alternative zum „Scraping oder Parsing von rohem Artikeltext“ sein – ein Problem, das derzeit die Server von Wikipedia belastet, da automatisierte AI-Bots unaufhörlich die Bandbreite der Plattform verbrauchen. Wikimedia hat bereits Vereinbarungen über die gemeinsame Nutzung von Inhalten mit Google und dem Internet Archive getroffen. Die Partnerschaft mit Kaggle soll den Zugang zu diesen Daten für kleinere Unternehmen und unabhängige Datenwissenschaftler erleichtern.

Meta blockiert Apple Intelligence und befeuert digitalen Machtkampf

Kaggle soll Daten „zugänglich, verfügbar und nützlich“ halten

„Als der Ort, an dem die Community für maschinelles Lernen Tools und Tests findet, ist Kaggle sehr erfreut, die Daten der Wikimedia Foundation zu hosten“, sagte Brenda Flynn, Leiterin der Kaggle-Partnerschaften. „Kaggle freut sich darauf, eine Rolle dabei zu spielen, diese Daten zugänglich, verfügbar und nützlich zu halten.“

Werbung
Werbung

Specials unserer Partner

Die besten Artikel in unserem Netzwerk

Powered by Dieser Preis-Ticker beinhaltet Affiliate-Links zu Bitpanda.

Deep Dives

Startup & Scale-up Investment Tracker 2025

Die größten Finanzierungsrunden des Jahres im Überblick
#glaubandich CHALLENGE Hochformat.

#glaubandich CHALLENGE 2025

Österreichs größter Startup-Wettbewerb - 13 Top-Investoren mit an Bord
© Wiener Börse

IPO Spotlight

powered by Wiener Börse

Trending Topics Tech Talk

Der Podcast mit smarten Köpfen für smarte Köpfe
Die 2 Minuten 2 Millionen Investoren. © PULS 4 / Gerry Frank

2 Minuten 2 Millionen | Staffel 12

Die Startups - die Investoren - die Deals - die Hintergründe

BOLD Community

Podcast-Gespräche mit den BOLD Minds

IPO Success Stories

Der Weg an die Wiener Börse

Weiterlesen