Sztuczna inteligencja wysadzi internet w powietrze. Właśnie pojawił się nowy problem

Etyka działania, jakim jest scrapowanie - pobieranie danych ze stron internetowych w celu ich dalszego przetwarzania to temat rzeka. Jednak jest ono obiektywnie działaniem złym, jeżeli doprowadza ono do przeciążenia działania danej strony. Twórca narzędzia Img2dataset broni się, że działania takie są niezbędne w celu opracowania innowacji, jaką jest otwarta sztuczna inteligencja.

Malwina Kuśmierek

27.04.2023 07:13

Dodaj do ulubionych w GoogleDodaj do ulubionych źródeł w Google

Sztuczna inteligencja wysadzi internet w powietrze. Właśnie pojawił się nowy problem

Sztuczna inteligencja nie poszła na tyle do przodu, byśmy mogli ją uczyć poprzez posadzenie robotów w szkolnej ławce i mówić do niej jak do pojętnego bytu. Jej trening to dosłowne wsadzanie w nią gigabajtów - o ile nie terabajtów, danych i dostrajanie na podstawie tego, czego się nauczyła i czego się od niej oczekuje.

Skąd jednak wziąć dane w tak dużej ilości? Oczywiście z niewyczerpanej studni treści, jaką jest internet.

Img2dataset w centrum sporu o scrapowanie danych.

Wyciąganie danych ze strony internetowej odbywa się poprzez tzw. Web Scraping, a dokonują go nie ludzie, a napisane przez nich boty, które wędrują po internecie, przeglądając i pobierając to, co znajdą. Działa to na podobnej zasadzie co boty wyszukiwarek, tzw. crawlery, dzięki którym już z poziomu wyszukiwarki mamy podgląd na to, co jest na danej stronie internetowej.

Jednym z narzędzi pozwalających na scrapowanie danych na potrzeby treningu generatywnej sztucznej inteligencji (a konkretnie modeli text-to-image, takich jak np. Midjourney) jest Img2dataset, stworzone i opublikowane w serwisie GitHub przez francuskiego programistę Romaina Beaumonta. Beaumont oprócz stworzenia Img2dataset wspiera otwarte modele sztucznej inteligencji poprzez dodawanie danych do popularnego zestawu LAION-5B.

Nawiązanie do crawlerów wyszukiwarkowych jest nieprzypadkowe, gdyż z botami Img2dataset łączy je wspólna cecha: domyślnie mają one otwartą furtkę do każdej możliwej strony w internecie. Właściciele witryn internetowych za pomocą odpowiedniego pliku i zawartych w nim instrukcji umieszczonego w kodzie strony mogą odpowiednio kierować botami lub po prostu zamknąć ową furtkę całkowicie.

O ile w przypadku pliku robots.txt - furtki z instrukcjami dla wyszukiwarek internetowych - wie niemalże każdy, kto prowadzi własną stronę, o tyle o instrukcjach dla botów scrapujących na potrzeby uczenia maszynowego wie niewiele osób, o ile ktokolwiek. W przypadku Img2dataset dodanie do kodu witryny wartości "X-Robots-Tag: noai" oraz "X-Robots-Tag: noindex", które spowodują automatycznie zignorowanie przez boty strony, na którą weszły.

Myślał, że padł ofiarą ataku hakerskiego. Okazało się, że to niekontrolowane boty pobierały dane treningowe dla sztucznej inteligencji

Od niedzieli w dyskusji projektu Img2dataset trwa dość ostra przepychanka słowna pomiędzy Romainem Beaumontem, a Terencem Edenem, programistą i właścicielem kilku stron internetowych. Eden wystosował wobec Beaumonta prośbę, aby ten zmienił działanie botów. Obecnie scrapują one każdą stronę, która nie posiada w kodzie instrukcji zamykających furtkę dla botów. W myśl prośby Edena działanie botów powinno być odwrotne: powinny one scrapować jedynie strony zawierające informacje dla botów, w myśl których furtka jest otwarta.

Jak powiedział Eden w wywiadzie dla amerykańskiego serwisu Vice, prośba została wystosowana po tym jak boty Beaumonta doprowadziły do przeciążenia serwerów obsługujących jedną z jego stron - OpenBenches. OpenBenches zawiera 250 gigabajtów zdjęć ławek stanowiące miejsca wspomnień - w sumie ponad 27 tysięcy ławek rozlokowanych na całym świecie.

Zauważyłem, ponieważ otrzymałem alert od mojego hosta, że strona była pod trwałym atakiem. Musiałem zapłacić za zwiększenie mojego serwera, zapłacić dodatkowo za przekierowaniu ruchu i spędziłem część mojego weekendu blokując nadmierne wykorzystanie zasobów serwera spowodowane przez tego konkretnego bota.

W odpowiedzi na prośbę Edena, Beaumont nazwał "nieetycznym" zmianę działania na bota z "wejdź do każdej niezamkniętej furtki" na "wejdź tylko tam, gdzie masz na to pozwolenie"

Pozwalając małej mniejszości (np. kilku osobom, które publikują treści) uniemożliwić dużej większości (większości wydawców treści) dzielenie się swoimi zdjęciami i korzystanie z dobrodziejstw narzędzia AI ostatniej generacji byłoby zdecydowanie nieetyczne.

Zgoda oczywiście nie jest nieetyczna. Możesz wyrazić zgodę na wszystko, jeśli tylko chcesz.
Wygląda na to, że próbujesz decydować za miliony innych ludzi, nie pytając ich o zgodę.

Francuz argumentował swoje stanowisko powołując się na crawlery wyszukiwarek internetowych, które działają w bardzo podobny sposób do scrapujących botów, jednak nikt nie blokuje ich działania.

Ja bezpośrednio czerpię korzyści z wyszukiwarek, ponieważ kierują one do mnie użyteczny ruch. Ale, co ważniejsze, bot Google'a jest pełen szacunku i nie dobija mojej strony. Większość botów szanuje dyrektywę robots.txt. Narzędzie Romaina tego nie robi. Wydaje się, że jest celowo ustawione tak, aby ignorować dyrektywy, które właściciele stron internetowych mają w miejscu. I, szczerze mówiąc, nie przynosi żadnych bezpośrednich korzyści dla mnie.

Scrapowanie stron nie jest zjawiskiem nowym - na tak pozyskanych opierają się popularne ChatGPT, GPT-4 czy GPT-3 oraz wszystkie inne modele, które przetwarzają tekst na tekst, obraz, a obecnie nawet wideo czy dźwięk. Jednak dopiero wobec komercyjnego sukcesu ChatGPT, świat technologii zaczął przykładać większą wagę do tego, że wszystko, co jest opublikowane w internecie, może potencjalnie stać się częścią zestawu treningowego dla sztucznej inteligencji.

Tylko w ciągu zeszłego tygodnia na ograniczenie dostępu do API (a więc i możliwości scrapowania) zdecydował się Reddit oraz Stackoverflow, a Elon Musk chce pozwać Microsoft za wykorzystanie publicznie dostępnych danych z Twittera do treningu swoich modeli generatywnej SI.

Malwina Kuśmierek

Redaktor

Tagi:

Sztuczna inteligencja (AI)