Koniec darmowego archiwum sieci. Zamykają drzwi wspaniałemu narzędziu
Spór o trenowanie AI wchodzi na nowy poziom i uderza w fundamenty otwartego internetu. Tym razem oberwało się jednemu z najpotężniejszych narzędzi w sieci.

Jeszcze niedawno panowało przekonanie, że internet niczego nie zapomina i zawsze pozwala wrócić do wcześniejszych wersji stron czy artykułów. Ten fundament zaczyna się jednak chwiać, ponieważ coraz więcej dużych redakcji ogranicza dostęp dla Internet Archive i jego narzędzia Wayback Machine. W efekcie użytkownicy tracą dostęp do części materiałów, które jeszcze niedawno można było swobodnie przeglądać w archiwach.
Media zamykają drzwi dla Archiwum Internetu
Z danych firmy Originality AI cytowanych przez Wired wynika, że co najmniej 23 duże serwisy informacyjne blokują należącego do Internet Archive robota ia_archiver odpowiedzialnego za tworzenie kopii stron. Na liście znajdują się między innymi USA Today, The Guardian oraz The New York Times.
Robot ia_archiver to tzw. "crawler", czyli bot przeczesujący internet w poszukiwaniu treści do skopiowania i późniejszego przetwarzania. Z natury boty te są niewidoczne dla przeciętnego użytkownika - widać je jedynie w ruchu na stronie, a najbardziej znanym wykorzystaniem crawlerów jest indeksowanie treści na potrzeby wyszukiwarek internetowych takich jak Google. Wraz z wybuchem boomu na generatywną sztuczną inteligencję pojawił się nowy typ cralwerów - crawlery AI, czyli takie które zbierają treści z internetu na potrzeby treningu generatywnej AI
Jednak w tej sprawie nie chodzi o same crawlery Internet Archive, a to co dzieje się z treściami zapisanymi w Wayback Machine, czyli narzędziu pozwalającym sprawdzić archiwalne wersje danej strony. Crawler ia_archiver po zebraniu danych z danej strony, na przykład artykułu, "wraca" do Internet Archive i zwraca dane które są umieszczane w Wayback Machine. Treści obecnie w Wayback Machine są ogólnodostępne i może w nie zajrzeć każdy użytkownik internetu, w tym także crawlery AI.
Efektem tego jest zjawisko, w którym crawler AI zablokowany przez The New York Times wejdzie do Wayback Machine i stamtąd skopiuje treść artykułu. Aby zapobiegać tego typu sytuacjom, blokowane są i crawlery AI, i te należące do Internet Archive.
Przedstawiciele redakcji podkreślają, że działania nie są wymierzone bezpośrednio w Wayback Machine, lecz w automatyczne systemy zbierające dane dla generatywnej AI. Wydawcy obawiają się, że ich materiały mogą być używane bez zgody i odpowiedniego wynagrodzenia, co prowadzi do sporów prawnych i napięć z firmami technologicznymi. Taka strategia obronna uderza jednocześnie w narzędzia archiwizujące, które działają na podobnych mechanizmach technicznych.
Pomimo wyjaśnień decyzji, na media blokujące ia_archiver spadłą fala krytyki. Organizacje takie jak Electronic Frontier Foundation czy Fight for the Future zebrały ponad sto podpisów dziennikarzy wspierających działalność Internet Archive. Bowiem IA pozostaje jednym z niewielu narzędzi umożliwiających śledzenie zmian w publikacjach oraz weryfikowanie wcześniejszych wersji materiałów. Sytuacja jest też ironiczna gdyż wiele mediów - w tym sam The New York Times - niejednokrotnie wykorzystywało i linkowało w publikacjach strony zarchiwizowane w Wayback Machine.
Znaczenie Wayback Machine wykracza poza dziennikarstwo i obejmuje również system prawny oraz badania naukowe. Zarchiwizowane strony bywają wykorzystywane jako dowody w postępowaniach sądowych, a także jako źródła do analiz zmian społecznych i politycznych. Internet Archive w ciągu 30 lat działalności zgromadził już ponad bilion kopii różnorakich stron, budując unikalne repozytorium wiedzy o rozwoju sieci. Brak dostępu do części nowych materiałów stopniowo osłabia spójność tego zbioru i utrudnia odtwarzanie kontekstu wydarzeń.
Kierownictwo Internet Archive prowadzi rozmowy z wydawcami, jednak rosnąca liczba blokad sugeruje, że 23 organizacje medialne blokujące archiwum to szczyt góry lodowej i wstęp do internetu przyszłości.
Czytaj też:
Zdjęcie główne: PandK / Shutterstock



















