Sztucznej inteligencji nie trzeba łamać, żeby stała się bardzo niebezpieczna. Wystarczy ją zatruć
Sztuczna inteligencja ma parę słabości. Skrypty prowokujące ją do wyrwania się z okowów człowieka, proszenie jej o stworzenie treści co najmniej wprowadzających w błąd - o ile nie po prostu wykorzystywanie jej w celach przestępczych. Ale najsłabszym punktem zawsze będą dane treningowe, które są dla SI jak pokarm. A każdy organizm będzie cierpiał, jeżeli jego pokarm zostanie zatruty.
Dane treningowe to serce każdego modelu sztucznej inteligencji. Niezależnie od zastosowanej metody uczenia maszynowego czy ostatecznego zastosowania SI, to od ich jakości i ilości zależeć będzie jak dobry jest model - lub w drugą stronę, zagrożenia płynące z korzystania z modelu. Dlatego chcąc, mówiąc delikatnie, namieszać w sztucznej inteligencji można zwyczajnie zatruć dane treningowe.
Sztuczna inteligencja nie jest niezniszczalna.
Na łamach Spider's Web opisywałam już dwa główne powody, dla których specjaliści patrzą na sztuczną inteligencję z ostrożnym optymizmem lub z niepokojem, a przeciwnicy zbierają powody, by nie zgadzać się z obecnymi trendami wprowadzającymi SI na salony. Pierwszy to jailbreak, w przypadku ChatGPT przybierający postać DAN-a. Jailbreak w społeczności sztucznej inteligencji to określenie promptów - skryptów, które dzięki umiejętnemu manipulowaniu językiem naturalnym prowokują sztuczną inteligencję do generowania tekstu niezgodnego z zasadami etycznymi i moralnymi. Przy użyciu odpowiedniego skryptu możemy sprowokować SI do mówienia w sposób wulgarny, kontrowersyjny czy do powiedzenia o swoich planach na stworzenie idealnego świata.
Drugi powód to potencjał SI w generowaniu treści wiadomości, które później mogą z powodzeniem zostać wykorzystane przy phishingu i różnego rodzaju oszustwach. O ile w języku angielskim (a pewnie i w kilku innych często używanych językach) najpopularniejsze modele posiadają odpowiednie zabezpieczenia i odmówią wykonania poleceń, o tyle w mniej znanych językach - także polskim - SI nie jest na tyle bystra by zorientować się, że jest wykorzystywana w złym celu.
Podobnie jak w przypadku człowieka, wystarczy ją zatruć
Istnieje jeszcze jeden powód, a właściwie zagrożenie związane ze sztuczną inteligencją czyli zatrucie danych treningowych. Zanim twórcy danego modelu przystąpią do jego treningu, zbierają oni dane treningowe, które będą chcieli wykorzystać przy szkoleniu SI. Sam proces jest długi, a potem dodatkowo wydłużany przez sprawdzanie jakości danych oraz korygowanie ich. Dlatego też często korzysta się z gotowych zbiorów, takich jak np. LAION.
Cały proces treningu ma słaby punkt, a konkretnie moment pomiędzy zatwierdzeniem zbioru danych (a więc nie będzie dalej sprawdzany przez ludzkiego moderatora), a rozpoczęciem treningu. Ten krótki moment pozwala na wykorzystanie nieuwagi i zatrucie danych złośliwymi informacjami, na przykład wykazującymi jakiś rodzaj uprzedzenia. I to nie tylko teoria.
Jakiś czas temu zespół badaczy złożony ze specjalistów z m.in. Google, Nvidii i politechniki w Zurychu przedstawili dwa przykłady ataków zatruwających zbiory danych, które celowo wprowadzają złośliwe dane do danych treningowych. W swej publikacji znajdującej się obecnie w archiwum arXiv autorzy pokazują, w jaki sposób - i kosztem zaledwie 60 dolarów amerykańskich - byli w stanie zatruć 0,01 proc. danych z zestawów danych LAION-400M oraz COYO-700M.
Ich drugie podejście, "zatruwanie z wyprzedzeniem", jest ukierunkowane na duże bazy danych, które (ze względu na swój stale aktualizujący się charakter) często przechwytują informacje z innych, stale aktualizujących się źródeł, takich jak np. Wikipedia. Badacze wykazali, że atak wykonany w odpowiedniej, wąskiej ramie czasowej na owe źródło spowoduje zatrucie danych w zbiorze.
Jak można zatruć SI? Atak na stronę internetową niczym zastrzyk z trucizną
Pierwsze zatrucie, nazywane przez badaczy atakiem dzielonego widoku (split-view poisoning), jest skierowane na obecne duże zbiory danych (np. wspomniany LAION-400M) i wykorzystuje fakt, że dane widziane przez opiekuna zbioru w czasie zbierania danych mogą różnić się (znacząco lub w niewielkim stopniu - zależnie od przyjętych kryteriów oceny) od danych widzianych przez użytkownika końcowego w czasie treningu.
Mowa tu o danych pochodzących z np. forów dyskusyjnych, mediów społecznościowych czy stron, gdzie autor wpisu ma możliwość edycji wpisów i dodawania nowych. Atak ten jest możliwy ze względu na brak kryptograficznych zabezpieczeń integralności w zestawach danych, gdyż nie ma gwarancji na to, że treści pochodzące z raz zaindeksowanych źródeł (np. stron internetowych) pozostaną takie same podczas scrapowania - wydobywania danych ze strony internetowej - do treningu.
Z kolei zatruwanie z wyprzedzeniem wykorzystuje fakt, że niektóre źródła są scrapowane cyklicznie. Mając wiedzę o częstotliwości zbierania danych z np. Wikipedii, osoba chcąca manipulować danymi może wprowadzić modyfikacje na stronie tuż przed scrapowaniem jej w celu zatrucia danych. Nawet jeżeli po ataku na stronę jej administrator zauważy zmiany i je cofnie, to nie ma on wpływu na ściągnięte dane, które później mogą posłużyć do treningu dużych modeli sztucznej inteligencji.
Zatruwanie danych to przede wszystkim wyzwanie na nadchodzącą przyszłość
Czy jest się czego bać? Jak piszą badacze, póki co nie znaleziono żadnego przypadku, w którym ktoś wykorzystał możliwość zatruwania danych do namieszania w modelu sztucznej inteligencji, a wszystkie podjęte przez nich próby zostały podjęte w kontrolowanym środowisku. Jednak jak zaznaczają, świadomość takiej możliwości oraz fakt, że stale rosnące (w liczbie parametrów) modele będą sięgać do coraz głębszych, mniej wiarygodnych i godnych zaufania zakamarków internetu. A to przełoży się na większe ryzyko celowego zatrucia danych.