Zobaczył, że boty kradną informacje z jego strony. Zastawił pułapkę, której pożałowały
Pewien pomysłowy programista wygrał wojnę z upierdliwymi crawlerami, które zalały należącą do niego witrynę w poszukiwaniu treści do karmienia AI. Z "labiryntu ogłupienia" wydostały się tylko boty OpenAI
Internet przemierzany jest wzdłuż i wszerz przez boty zwane crawlerami ("pełzaczami"). Choć słowo "bot" jest nacechowane negatywnie w języku polskim, to crawlery mają dość neutralnie nacechowane zadanie: muszą przeczesywać internet w poszukiwaniu nowych stron i treści. Dane, które zbierają crawlery najczęściej wykorzystywane są przez wyszukiwarki internetowe do indeksowania kolejnych stron - wyników wyszukiwania. Jednak w obliczu popularności generatywnej sztucznej inteligencji istnieje także spora grupa crawlerów, która dosłownie ściąga treści stron, by później wykorzystać je na potrzeby treningu różnego rodzaju modeli AI.
Ogłupiający labirynt sposobem na natrętne crawlery
Każda strona internetowa posiada ukryty plik robots.txt, który zawiera instrukcje dla crawlerów jak mają się zachowywać na stronie - może im też powiedzieć kolokwialne "idź sobie", by wyszły ze strony.
W branży istnieje niepisany konsensus, że każdy crawler pełzający po internecie ma przestrzegać wytycznych robots.txt. Jednak coraz częściej konsensus ten traci na wartości, a crawlery potrafią ruchem na stronie dosłownie uniemożliwić jej działanie. Tego doświadczył choćby właściciel serwisu iFixit.com, który w zeszłym roku nawiedziła fala crawlerów startupu AI Anthropic.
Teraz podobną sytuację opisuje serwis Ars Technica, który dotarł do innego rozgoryczonego właściciela strony internetowej. I w przeciwieństwie do iFixit.com, nie poprzestał on na konfrontacji w mediach społecznościowych.
Mężczyzna o pseudonimie Aaron powiedział dość przyzwoleniu na crawlery AI po tym jak boty Facebooka w krótkim czasie odwiedziły jego stronę aż 30 milionów razy. Wykorzystując się na antyspamową taktykę cyberbezpieczeństwa znanej jako tarpitting, stworzył Nepenthes, złośliwe oprogramowanie nazwane na cześć mięsożernej rośliny, która "zje prawie wszystko, co znajdzie się w środku".
Aaron wyraźnie ostrzega użytkowników, że Nepenthes to agresywne złośliwe oprogramowanie. Nie powinien być wdrażany przez właścicieli witryn, którzy nie czują się komfortowo z uwięzieniem crawlerów AI i wysłaniem ich w dół „nieskończonego labiryntu” statycznych plików bez linków wyjściowych, gdzie „utkną” i „będą się miotać” przez miesiące.
- pisze Ars Technica
Nepenthes nie tylko zatrzymuje crawlery w "labiryncie", ale także karmi je "bełkotliwymi" danymi, zatruwając dane, którymi ma być trenowana AI. Jak relacjonuje Aaron, jego oprogramowanie zatrzymało w labiryncie ogłupienia crawlery należące do wszystkich większych firm rozwijających swoją generatywną sztuczną inteligencję. Z sideł udało się wydostać jedynie crawlerowi OpenAI. Ruch na stronie internetowej Aarona pokazał mu także, że Nepenthes zdobywa popularność wśród osób, które podobnie jak on mają dość agresywnego ruchu ze strony żądnych danych crawlerów AI.
Może zainteresować cię także:
Jednocześnie oprogramowanie to miecz obosieczny, gdyż uruchomienie Nepenthes na własnej stronie internetowej wiąże się z kilkoma zagrożeniami, w tym zwiększonym obciążeniem serwera z powodu nieskończonego labiryntu plików statycznych, co może spowolnić witrynę lub spowodować awarie. Nepenthes może również negatywnie wpływać na optymalizację strony dla wyszukiwarek internetowych, zatrzymując "przyjazne" roboty indeksujące, co prowadzi do obniżenia pozycji witryny w wyszukiwarkach.
Ponadto oprogramowanie zużywa zasoby serwera, zwiększając koszty operacyjne - te porównywane są przez Aarona do "stałego działania Virtual Machine na Raspberry Pi". Ponadto nie bez uwagi powinny przejść obawy prawne i etyczne związane z celowym i zamierzonym wdrażaniem złośliwego oprogramowania, a także potencjalne szkody dla reputacji witryny, które mogą zniechęcić ludzkich, niemających złych intencji odwiedzających.