REKLAMA

Wikipedię zalały boty. Musiała się ratować

Wikipedia udostępniła alternatywną wersję internetowej encyklopedii przeznaczoną dla "botów". Wikipedyści mają nadzieję, że ruch ten pozwoli odciążyć serwery penetrowane przez boty ściągające dane dla AI.

Wikipedię zalały boty. Musiała się ratować
REKLAMA

Wikipedia jest jednym z ważniejszych miejsc w internecie. Nie tylko, gdy chcesz dowiedzieć się więcej na temat osoby, o której nigdy wcześniej nie słyszałeś, ale także dla generatywnej sztucznej inteligencji. Bowiem informacje, które zawiera, ale i sposób ich opisu, to bezcenne dane dla procesu uczenia maszynowego.

Od dziś każdy może pobrać 114 GB Wikipedii dla AI

REKLAMA

To jednak odbija się czkawką samej Wikipedii, bowiem boty "ściągające" z Wikipedii treści artykułów obciążają jej serwery. Na początku kwietnia Wikimedia Foundation poinformowała, że od stycznia 2024 roku "przepustowość wykorzystywana do pobierania treści multimedialnych wzrosła o 50 proc.".

Z tego powodu Wikimedia Foundation podjęła współpracę z Kaggle - należącą do Google'a popularną platformą społeczności nauki o danych - w celu stworzenia alternatywnej wersji Wikipedii "zoptymalizowanej dla treningu sztucznej inteligencji".

Jak wyjaśniła Wikimedia Foundation na swojej stronie, "Wikipedia dla botów" ma formę zestawu danych o wadze 113.58 GB możliwego do pobrania z Kaggle. Jednak nie jest to pełna wersja Wikipedii - pozbawiono ją odwołań i multimediów (obrazów, filmów, plików audio), zostawiając "dobrze ustrukturyzowane reprezentacje treści Wikipedii w formacie JSON".

Jako miejsce, do którego społeczność uczenia maszynowego przychodzi po narzędzia i testy, Kaggle jest niezwykle podekscytowany, że może być gospodarzem danych Wikimedia Foundation. Kaggle jest podekscytowany, że może odegrać rolę w utrzymaniu dostępności, dostępności i użyteczności tych danych

Ponieważ cała zawartość "Wikipedii dla botów" pochodzi z Wikipedii, jest ona dostępna na wolnej licencji Creative Commons Attribution-Share-Alike 4.0 i GNU Free Documentation License (GFDL) - z pewnymi szczególnymi przypadkami, w których może mieć zastosowanie domena publiczna lub alternatywne licencje.

Więcej na temat botów wysadzających internet w powietrze:

REKLAMA
REKLAMA
Najnowsze
Aktualizacja: 2025-04-18T12:14:00+02:00
Aktualizacja: 2025-04-18T09:37:06+02:00
Aktualizacja: 2025-04-17T21:05:52+02:00
Aktualizacja: 2025-04-17T20:17:05+02:00
REKLAMA
REKLAMA
REKLAMA