REKLAMA

Popularny bot kradł na masową skalę. Zastawili pułapkę, by to udowodnić

Boty Perplexity podszywały się pod przeglądarki zwykłych użytkowników, by ominąć zabezpieczenia witryn. Poprzez zastawienie pułapki, Cloudflare wywlekło na światło dzienne nieuczciwe praktyki pozyskiwania danych przez Perplexity.

Perplexity
REKLAMA

Generatywna sztuczna inteligencja całość swojej wiedzy zawdzięcza treningowi na danych stworzonych przez człowieka - tekstach, obrazach, dźwiękach, filmach. Niestety najpopularniejsze sposoby pozyskiwania tych danych - zwykle objętych prawem autorskim - wykraczają poza dozwolone użycie. Przykłady takich sytuacji można wspominać w nieskończoność: OpenAI kradnące z The New York Times, Google wykorzystujący swoją pozycję właściciela YouTube, czy Meta, która sporą część danych dla Llamy zaciągnęła z torrentów.

REKLAMA

Perplexity notorycznie kradnie od broniących się na wszelkie sposoby właścicieli witryn

Swoje za uszami ma też Perplexity, które w ubiegłym roku zostało przyłapane na nielegalnym usuwaniu paywalli i omijaniu instrukcji pliku robots.txt - zbioru instrukcji dla internetowych botów, które instruują je jak poruszać się po witrynach. Innymi słowy boty startupu wesoło hulały po internecie i kopiowały wszystkie możliwe witryny, wbrew woli ich właścicieli, którzy obłożyli witryny odpowiednimi zabezpieczeniami.

Ówcześnie dyrektor generalny Perplexity tłumaczył sytuację niesfornym działaniem crawlerów firm trzecich, które miały działać nie tylko wbrew właścicielom witryn, ale także instrukcjom samego Perplexity. Była to dobra wymówka, która właśnie traci jakąkolwiek wiarygodność. Bo Perplexity właśnie wpadło w pułapkę zastawioną przez Cloudflare.

Cloudflare, zaalarmowane przez klientów, że boty Perplexity bez uprawnień buszują po należących do nich witrynach, zastawiło na crawlery pułapkę. Pułapka Cloudflare miała formę kontrolowanych domen, które zawierały wyraźne zakazy indeksowania przez Perplexity - zarówno w pliku robots.txt, jak i poprzez zapory sieciowe (Web Application Firewall), a także listy zablokowanych adresów IP.

Perplexity opracowało sprytną metodę obchodzenia zabezpieczeń witryn

Zgodnie z raportem opublikowanym przez Cloudflare, PerplexityBot rzeczywiście najpierw próbował dostać się na stronę pod własnym szyldem - używając identyfikatora "PerplexityBot" lub "Perplexity-User". Jednak gdy napotykał na blokady, zmieniał swoją tożsamość. Zamiast przyznać się do bycia botem, udawał zwykłego użytkownika - podszywając się pod przeglądarkę Google Chrome działającą na systemie macOS. Takie działanie - znane jako cloaking - jest jawnym naruszeniem zasad fair play w sieci i próbą obejścia zabezpieczeń.

Cloudflare twierdzi, że to nie był incydent, a systemowe, zautomatyzowane działanie. Firma zidentyfikowała "miliony zapytań dziennie" pochodzących z tysięcy adresów IP i zmieniających się identyfikatorów sieciowych (ASN), co dodatkowo utrudniało śledzenie źródła ruchu. W efekcie wiele witryn - mimo zastosowania pełnego pakietu zabezpieczeń - nadal było nielegalnie odwiedzanych przez Perplexity.

W obliczu tych dowodów Cloudflare podjęło decyzję o usunięciu Perplexity z listy zweryfikowanych botów i udostępniło administratorom narzędzia pozwalające na skuteczniejsze blokowanie jego działań. Jak podkreślił Matthew Prince, CEO Cloudflare, raport ma na celu ochronę wydawców, właścicieli treści i użytkowników internetu przed nieautoryzowanym kopiowaniem danych przez firmy AI.

Jeśli ktoś korzysta z twojej strony, żeby trenować komercyjny model sztucznej inteligencji, powinieneś mieć możliwość powiedzenia: albo płacicie, albo nie macie dostępu

Perplexity, zapytane o ustalenia Cloudflare, nie przyznało się do winy. W oświadczeniu przesłanym do redakcji The Verge rzecznik firmy nazwał raport "chwytliwym przedstawieniem" i zasugerował, że zawiera on "wiele nieporozumień". Nie odniósł się jednak do najważniejszych zarzutów - zmiany user-agentów i ukrywania swojej tożsamości.

Może zainteresować cię także:

REKLAMA

Zdjęcie główne: miss.cabul / Shutterstock

REKLAMA
Najnowsze
Aktualizacja: 2025-08-05T12:18:41+02:00
Aktualizacja: 2025-08-05T10:32:45+02:00
Aktualizacja: 2025-08-05T08:32:04+02:00
Aktualizacja: 2025-08-05T07:20:54+02:00
Aktualizacja: 2025-08-05T07:00:00+02:00
Aktualizacja: 2025-08-05T06:36:15+02:00
Aktualizacja: 2025-08-05T06:31:00+02:00
Aktualizacja: 2025-08-05T06:21:00+02:00
Aktualizacja: 2025-08-04T20:59:16+02:00
Aktualizacja: 2025-08-04T20:33:07+02:00
Aktualizacja: 2025-08-04T20:07:52+02:00
Aktualizacja: 2025-08-04T18:36:55+02:00
Aktualizacja: 2025-08-04T17:32:30+02:00
Aktualizacja: 2025-08-04T14:38:22+02:00
Aktualizacja: 2025-08-04T12:00:51+02:00
REKLAMA
REKLAMA
REKLAMA