Mamy problem ze sztuczną inteligencją. Gdy się uczy, to kradnie. Jeśli przestanie kraść, to się nie nauczy
Naruszenie praw autorskich w imię innowacji? To rzeczywistość, w jakiej działają najpopularniejsze i największe modele SI.
W połowie stycznia Getty Images, popularny bank zdjęć, obrazów, ilustracji i innych multimediów pozwał Stability AI, firmę odpowiedzialną za popularny model sztucznej inteligencji Stable Diffusion. Zarzut jest poważny, gdyż Getty Images zarzuca Stability AI, że ta bezprawnie skopiowała i przetworzyła miliony obrazów chronionych prawami autorskimi do treningu popularnego modelu przetwarzającego tekst na obraz.
Informacja ta pojawiła się w centrum prasowym Getty Images zaledwie dwa dni po tym jak trójka artystek Sarah Andersen, Kelly McKernan i Karla Ortiz pozwały Stability AI oraz twórców dwóch innych modeli - Midjourney oraz DeviantArt. Pozew dotyczy naruszenia praw autorskich milionów artystów publikujących swoje prace w internecie.
Jak doszło do naruszenia? Podczas treningu.
Patrząc na efekty pracy modeli takich jak DALL-E, Google Imagen, Midjourney, Stable Diffusion, ale także tekstowych takich jak GPT-3, ChatGPT, Gopher, LaMDA czy BLOOM można wpaść w zachwyt. Sztuczna inteligencja naprawdę rozumie, co do niej piszemy. Jej odpowiedzi zawierają pisane w języku naturalnym zrozumiałe i mniej lub bardziej precyzyjne odpowiedzi. Z kolei w przypadku modeli text-to-image odpowiedzi to często niezwykle imponujące, wygenerowane przez SI grafiki.
I za te cuda odpowiada internet, dosłownie.
W przypadku właściwie każdego typu sztucznej inteligencji niezbędny jest zestaw treningowy - zestaw danych, dzięki któremu sztuczna inteligencja nauczy się pewnych wzorców. W przypadku mniejszych modeli, takich jak ten do wykrywania gatunków zabitych komarów zestawem treningowym są zdjęcia wykonane przez naukowców. Z kolei SI odróżnia rozbite komary od tych żywych oraz ich gatunki poprzez etykiety, które badacze przypisali do każdego ze zdjęć.
Ale mówimy tu o bardzo specyficznym, precyzyjnym wykorzystaniu modelu SI. Co w przypadku bardziej ogólnych modeli, takich jak nasz ulubiony chatbot ChatGPT czy Stable Diffusion?
W takich przypadkach wykorzystuje się ogromne zbiory nieoznakowanych danych, w których SI samodzielnie odnajduje wzorce, podobieństwa, różnice i samodzielnie je według nich grupuje. Skąd pochodzą owe zbiory? Po prostu: z internetu. Modele językowe trenuje się na m.in. artykułach z prasy, Wikipedii, książkach, postach z mediów społecznościowych i innych tekstach dostępnych w internecie. Podobnie jest z modelami przetwarzającymi tekst na obraz, które również uczą się na wszystkim tym, co można znaleźć w internecie: fotografiach i ilustracjach z serwisów społecznościowych, obrazkach zawartych na różnych stronach, logotypach i innych plikach graficznych, jakie tylko można znaleźć.
Oczywiście SI nie jest robotem Google, nie wędruje ona od strony do strony, do strony wrzucając sobie do biblioteki co popadnie. Do treningu wykorzystuje się wcześniej przygotowane zestawy danych. Stable Diffusion korzysta w większości z zestawu LAION-5B przygotowanego przez organizację Laion.ai. LAION-5B zawiera w sumie prawie 6 miliardów obrazów opisanych w ponad 100 językach. W większości, gdyż przy treningu inżynierowie nie muszą ograniczać się do jednego zestawu.
Pomiędzy młotem a kowadłem: prawa autorskie a innowacja
I tu dochodzimy do sedna sprawy, gdyż zarówno trójka artystek, jak i Getty Images stawiają Stability AI ten sam zarzut: naruszenie praw autorskich. Warto tu zaznaczyć, że zarówno Karla Ortiz i Getty Images nie są przeciwko uczeniu maszynowemu z wykorzystaniem własności intelektualnej jako takiej. Artystki w swym manifeście zaznaczają, że jest to krok w stronę "uczynienia SI bardziej sprawiedliwymi i etycznymi dla wszystkich". Z kolei samo Getty Images przyznaje, że przyznało już kilku różnym firmom licencje na trenowanie sztucznej inteligencji na swych zbiorach.
Z jednej strony jako osoba, która ma pewne doświadczenia z nieautoryzowanym wykorzystaniem jej własności intelektualnej, całkowicie rozumiem frustrację powodów. Obecnie funkcjonujące prawa, przepisy i kodeksy kompletnie nie biorą pod uwagę istnienia sztucznej inteligencji i jej treningu jako przedmiotu badań (a co dopiero wykorzystania komercyjnego). Mimo to, wobec obecnie funkcjonujących norm społecznych Stability AI, Midjourney czy DeviantArt powinny wyjść z inicjatywą i wystosować odpowiednie zapytanie do artystów lub - w przypadku Getty Images - firm. W przypadku odmowy lub nieposiadania informacji o autorze powinny wstrzymać się od wykorzystania.
Jednak tutaj dochodzimy do drugiej strony medalu, gdyż SI uczy się na wzór człowieka: obserwuje, wychwytuje wzorce i na ich podstawie generuje pożądaną przez nas treść - niezależnie czy jest to treść życzeń bożonarodzeniowych, czy imponująca ilustracja. O ile w przypadku nas, ludzi, to co tworzymy to wypadkowa naszej wiedzy, doświadczeń, umiejętności oraz pewnych wzorców, które uznajemy za estetycznie idealne, o tyle w przypadku SI doskonałość jest efektem ilości i jakości danych treningowych.
Musimy się nauczyć jak być lepszymi by SI również stała się lepsza
Ograniczenie SI do treningu jedynie na treściach objętych odpowiednią licencją - w domyśle domeny publicznej - i treściach, na których wykorzystanie zgodzili się autorzy bardzo ograniczyłoby rozwój SI. My poznajemy świat poprzez czytanie, obserwację i oglądanie różnych obiektów, widoków, ilustracji - podobnie jest z SI. Jednakże to, co działa na niekorzyść SI to jej sposób działania. Sztuczna inteligencja obecnie jest na etapie, jak to nazwali twórcy Character.AI, halucynacji. To, co wygenerowała SI to nie jest jej abstrakcyjny wymysł, a kolaż danych, które uważa ona za idealnie pokrywające się z wysłanym przez nas żądaniem.
Modele SI (wbrew temu co powiedział jakiś czas temu pewien inżynier Google), nie są świadome, nie mają pojęcia czy to, co generują jest dobre czy złe, czy mają do tego prawo czy nie. Na obecnym etapie rozwoju to my jesteśmy całkowicie odpowiedzialni za całokształt dokonań SI, za odpowiednie dostosowanie danych treningowych, testy i późniejsze nadzorowanie pracy tak stworzonych sztucznych sieci neuronowych.
Z jednej strony właściciele praw do własności intelektualnych mają całkowite prawo do egzekwowania naruszeń. Z drugiej strony pewne naruszenie norm zawsze stanowiło podwaliny pod jakąś innowację i tylko poprzez pokazanie SI świata takim, jakim go widzimy my, jest w stanie doprowadzić do stworzenia silnej sztucznej inteligencji.