Między kradzieżą a inspiracją. Tak wielkie firmy wyciągają jakościowe dane

Śledztwa magazynu "The Atlantic" pokazują porażającą skalę nielegalnego pozyskiwania jakościowych danych do trenowania AI. Apple, Anthropic, Meta, Nvidia, Salesforce i inne wielkie korporacje technologiczne tłumaczą się, że wyłącznie "inspirują się" książkami, filmami, piosenkami. Opinie prawników nie są jednoznaczne, a sytuacja twórców jest niewesoła. Przyszłość obiecana przez AI pisana jest kradzionymi słowami.

Między kradzieżą a inspiracją. Tak wielkie firmy wyciągają jakościowe dane

Stephen King, Zadie Smith i Michael Pollan to tylko niektórzy z tysięcy pisarzy, których chronione prawem autorskim dzieła wykorzystywane są do trenowania dużych modeli językowych. W zeszłym roku amerykański magazyn “The Atlantic” dowiódł, że do szkolenia sztucznej inteligencji posłużyły 193 tysiące książek dostępnych na platformie Books3. Listę publikacji można sprawdzić za pomocą narzędzia, które przygotował "The Atlantic". 

Ponad 170 tys. książek, w dużej mierze wydanych w XXI wieku, posłużyło do trenowania modeli LLaMA, za którym stoi Meta. Publikacji użyto do uczenia także takich modeli jak BloombergGPT firmy Bloomberg, GPT-J firmy EleutherAI i prawdopodobnie innych programów generatywnej sztucznej inteligencji. 

Na książkach się nie skończyło. Ponad rok później kolejne śledztwo "The Atlantic" pokazuje, że już 139 filmów i seriali użyto do szkolenia AI. Dzięki pracy dziennikarzy magazynu i pomocy serwisu OpenSubtitles (gromadzi napisy do filmów) wiemy dziś, które filmy i programy telewizyjne zostały wykorzystane przez Apple'a i Anthropic do trenowania systemów sztucznej inteligencji. To m.in. 616 odcinków "The Simpsons", 45 odcinków "Twin Peaks" i całe filmy, np. "Ojciec chrzestny". Tutaj także amerykański magazyn przygotował narzędzie do przeszukiwania. 

Nie rozpisuję się na temat szczegółów dziennikarskich śledztw, ale zwracam uwagę, że tak jak będzie rosła liczba kradzionych filmów i książek, tak będzie rósł ten problem. 

Dwa lata od premiery słynnego ChatGPT nie powinno dziwić, że twórczość jest wykorzystywana bez zezwolenia do trenowania algorytmów. 

Dla złodziei jakość ma znaczenie 

Oczywiście akademickie treści mają znaczenie. Nie bez powodu taki Microsoft oferuje po 10 milionów dolarów, wydawnictwom naukowym za udzielenie licencji, dzięki którym mogą wykorzystywać ich zasoby do trenowania modeli AI. Dla firmy to inwestycja, która szybko się zwróci.

Jeśli chatbot może naśladować gangstera z serialu kryminalnego lub XIX-wiecznego poszukiwacza przygód, to jest o krok od przejęcia, w całości albo w dużej części, pracy scenarzystów czy pisarzy. 

– Dla wielu osób termin prawa twórców, szczególnie w sektorze kreatywnym, jest pojęciem abstrakcyjnym, a ich kradzież, mam wrażenie, wciąż nie budzi takich kontrowersji jak kradzież rzeczy fizycznych, jak samochód czy gotówka. A przecież to, co stworzy scenarzysta, to jego praca; coś, na co poświęcił swój czas i chce na tym zarabiać. Skoro dostawcy AI trenują na czyichś utworach swoje modele, powinni za to płacić. Kiedy nie płacą, scenarzysta ponosi stratę finansową – zauważa Maciej Michalczyk, scenarzysta, który ma na koncie ponad 500 scenariuszy do seriali codziennych, produkcji youtube'owych, miniseriali internetowych, audioseriali i podcastów. 

Zdaniem Michalczyka przepisy dotyczące ochrony praw scenarzystów powinny zostać wprowadzone jak najszybciej, zanim kwestia autorstwa zostanie całkowicie rozwodniona.

– Należy się pogodzić z tym, że tekstów generowanych przez sztuczną inteligencję będzie coraz więcej, nawet jeśli będą one napisane językiem typowym dla AI. A im będzie ich więcej, tym odbiorca szybciej przyzwyczai się do tego języka. To zaś spowoduje, że teksty generowane przez AI będą bazować na innych tekstach, które stworzyła sztuczna inteligencja, a wtedy ciężko będzie im przypisać autora – podkreśla scenarzysta.

To doświadczenia piszącego, ale także środowisko prawnicze widzi narastający problem. 

Zdaniem Moniki Gac, prawniczki specjalizującej się w prawie nowych technologii, trudności sprawia nie tylko sama interpretacja obecnie obowiązujących przepisów, ile dochodzenie roszczeń, które z nich wynikają. 

– Listy dialogowe wykorzystywane w bazach treningowych zwykle nie są uporządkowane. Wręcz przeciwnie, taką bazę może stanowić np. 14-gigabajtowy plik tekstowy, w którym dialogi pochodzące z różnych źródeł są pomieszane, więc zidentyfikowanie źródła poszczególnych dialogów może być niemożliwe – tłumaczy Gac. 

Wydaje się logiczne, że jeśli dostawcy AI trenują swoje modele na czyichś utworach, powinni za to płacić. W praktyce twórcy mają problem z udowodnieniem, że ich teksty, grafiki czy filmy były użyte do takich celów. Ba, często nawet nie są tego świadomi. Dlatego taką wartością jest mrówcza praca dziennikarzy "The Atlantic". 

Za oceanem, co nie dziwi, trwa wolnomerykanka. Można przypuszczać, że za administracji ekipy Trump–Musk–Vance sytuacja twórców raczej się nie poprawi. Prezydent miliarder, który zbudował karierę na kłamstwach, i orły z Doliny Krzemowej na pewno staną po stronie pieniądza, czyli big techów. 

W Europie, a w szczególności na polskim podwórku, powinno być nieco lepiej. Nasz polski model językowy, czyli Bielik, ma być szkolony wyłącznie legalnie, na danych, które wydawcy przekażą dobrowolnie. Konsorcjum naukowe PLLuM, twórca "polskiego ChataGPT", nawiązał współpracę m.in. z Agorą, wydawcą "Gazety Wyborczej", właścicielem portali takich jak Gazeta.pl czy Tokfm.pl. 

Jak wyjaśniał w rozmowie z nami prof. Maciej Piasecki z Katedry Sztucznej Inteligencji Politechniki Wrocławskiej, który jest koordynatorem konsorcjum naukowego PLLuM, Agora przekazuje teksty, do których ma prawa, ale w zamian otrzymuje własną wersję modelu, wytrenowaną na tekstach swoich pracowników. 

Korzyść dla korporacji jest oczywista. Pozytywów dla tworzących treści dziennikarek i dziennikarzy nie widzę. 

Zapytaliśmy PLLuM-a także o innych wydawców, z którymi ma umowy, ale nie otrzymaliśmy odpowiedzi. Na wiadomość czekamy już ponad tydzień.

"Łapać dobry pomysł, łapać!" - mogliby krzyknąć twórcy modeli językowych

Prawo i bezprawie 

Dzieła artystów, poetów, pisarzy, dziennikarzy, scenarzystów, ludzi, którzy opanowali słowo pisane do perfekcji, są więc na wagę złota. Ale są darmowe. 

Firmy technologiczne nie chwalą się, czyje prace wykorzystują do szkolenia swoich produktów. Kwestia legalności tych praktyk też jest dyskutowana. 

OpenAI, Meta, Apple, Anthropic oraz inni potentaci często podnoszą argument, że szkolenie systemów AI na podstawie prac chronionych prawem autorskim jest “dozwolonym użytkiem”. Idąc tym tropem, napisy do filmów są tylko dziełami pochodnymi. I tak to się kręci. Sądy nie wiedzą, jak postępować w przypadku takiej kradzieży czy plagiatu, a mała transparentność wielkich firm nie pomaga. 

Prawo teoretycznie stoi po stronie maluczkich, ale w praktyce: kto ma pieniądze na lepszych prawników, ten ma rację. 

– Przepisy prawa autorskiego, które powinny chronić twórców, w tej sytuacji stają się trudne do zastosowania. OpenAI i inni giganci twierdzą, że wykorzystują dzieła w ramach tzw. dozwolonego użytku (fair use), czyli wyjątku, który pozwala na korzystanie z chronionych treści w określonych celach, takich jak edukacja, parodia czy badania. Ale czy trenowanie modeli AI mieści się w tej definicji? Tutaj zaczyna się pole do prawnych dyskusji – zauważa Katarzyna Baryn, prawniczka branży kreatywnej i biznesu online. 

Baryn przypomina jedną z najgłośniejszych spraw ostatnich miesięcy, czyli tę między dziennikiem “The New York Times” a OpenAI. Gazeta zarzuca firmie, że jej treści zostały wykorzystane do trenowania ChatGPT bez odpowiedniego zezwolenia. 

– Kluczowym pytaniem jest jednak, czy AI rzeczywiście "narusza" prawo, czy raczej jedynie "inspiruje się" dziełami – co może być trudniejsze do udowodnienia, ale też może być precedensem dotyczącym funkcjonowania branży AI – podkreśla prawniczka. 

Baryn zauważa, że inspiracją do działania może być również znowelizowana tzw. klauzula bestsellerowa. To żądanie dodatkowego wynagrodzenia, jeśli pierwotne honorarium okaże się nieproporcjonalne do korzyści, jakie eksploatator uzyskał dzięki ich dziełu. 

– Brzmi świetnie, prawda? Jednak kto i na jakiej podstawie będzie decydował, co jest "nieproporcjonalne"? Wiele z tych kwestii będzie wymagało arbitrażu lub sądów, co oznacza dodatkowe koszty i czas dla twórców, którzy często nie mają zasobów, by walczyć z wielkimi korporacjami – dodaje prawniczka.

Jeszcze inne rozwiązanie wskazuje Monika Gac. 

– Twórcy oraz podmioty zaangażowane w komercjalizację utworów na dużą skalę, np. producenci czy wydawcy, powinni jeszcze przed pierwszym udostępnieniem utworu online rozważyć zastrzeżenie, że nie zgadzają się na użycie utworu do trenowania systemów sztucznej inteligencji – wyjaśnia Gac. 

W opinii prawniczki wykorzystywanie list dialogowych do trenowania sztucznej inteligencji może wchodzić w zakres eksploracji tekstów i danych (tzw. text and data mining – TDM) zdefiniowanej w ramach ostatniej nowelizacji prawa autorskiego w związku z opóźnioną o 3 lata implementacją unijnej dyrektywy o jednolitym rynku cyfrowym.

– Do wykorzystywania utworów w zakresie TDM do celów komercyjnych przyjęto system opt-out. W praktyce oznacza to, że działania firm technologicznych w ramach TDM są dozwolone, jeżeli uprawniony do użytego utworu nie sprzeciwił się wcześniej takiemu wykorzystaniu, dokonując odpowiedniego zastrzeżenia – podkreśla Gac. Dodaje, że nawet uprawnieni do utworów, którzy z jakichkolwiek względów nie sprzeciwili się wykorzystywaniu ich utworów jako TDM, mogą podjąć inne próby dochodzenia swoich praw. 

– Jednym ze sposobów może być wykazanie, że dany sposób używania utworów do TDM wykracza poza cele dozwolonego użytku, w tym godzi w słuszne interesy twórców lub prowadzi do naruszenia normalnego korzystania z utworu – tłumaczy. 

Prawniczka podkreśla jednak, że ostatecznie zarówno unijna dyrektywa, jak i polskie przepisy formułują jedynie ogólne wytyczne, co do zastrzeżenia braku zgody na wykorzystywanie utworu do TDM. 

– Regulacja ta budzi duże wątpliwości, jak dalece wprowadzony system opt-out może być egzekwowalny, zwłaszcza na obecnym etapie przy braku standardów oraz ujednoliconych protokołów. W takiej sytuacji firmy wykorzystujące utwory pochodzące z UE do trenowania sztucznej inteligencji mogą twierdzić, że uprawnieni do utworów nie dokonali zastrzeżeń skutecznie. Po wejściu w życie unijnego rozporządzenia w sprawie sztucznej inteligencji znanego jako AI Act dostawcy wprowadzający modele sztucznej inteligencji ogólnego przeznaczenia na terytorium UE będą zobowiązani do stosowania unijnych standardów w zakresie TDM, także w stosunku do utworów spoza UE – opowiada Gac. 

Praktyka pokazuje, że postępowania sądowe dotyczące zagadnień technologicznych są czasochłonne, a przy tym wymagają zaangażowania biegłych, co podnosi koszty procesu. 

AI tylko naśladuje? 

– AI, karmiąc się, wykorzystuje wszystkie dostępne dane, ale trudno powiedzieć, że okrada twórców. Wpływ pojedynczego dzieła na zbudowany model jest niewielki. Żywi artyści także inspirują się pracami innych twórców. Akceptujemy to, że czasem jedni korzystają z pomysłów innych, a czasem naśladują ich styl – powiedział mi profesor Leszek Pacholski, gdy rozmawialiśmy na potrzeby tekstu o profesorze Aleksandrze Mądrym z OpenAI. 

Były rektor Uniwersytetu Wrocławskiego i nauczyciel wielu talentów świata IT jest zdania, że AI tylko "korzysta" i "naśladuje" twórców. I ja się z tym zgadzam. Z czegoś sztuczna inteligencja musi się uczyć. 

Pytanie brzmi jednak, czy może i powinna to robić bez kontroli, opłacania twórców? Czy transparentność nie powinna być podstawą w przypadku tak kluczowej technologii?

W przeciwieństwie do prof. Pacholskiego i innych entuzjastów uważam, że jest ogromna różnica pomiędzy artystą, który zobaczył dany obraz w muzeum i stworzył podobny, a wszechpotężnym systemem, który w ciągu sekundy wytwarza miliony obrazów i tekstów. Skala ma znaczenie. 

Jeszcze większe znaczenie ma kwestia sił. Firmy technologiczne mają pieniądze na prawne batalie i lobbowanie własnych interpretacji. Mają też za sobą opinię publiczną. Artystom pozostaje poczucie krzywdy i nierzadko szydercza konstatacja, że "dobrze im tak" (opowiadanie się przez zwykłych ludzi po stronie big techów w starciu z artystami dziwi równie mocno jak to, że większość Polaków, bo aż 73 proc., popiera obniżkę składki zdrowotnej dla przedsiębiorców. Jak widać, mity wokół teorii skapywania trzymają się mocno). 

Nawet jeśli sztuczna inteligencja zmieniła zasady gry, to system pozostał bez zmian. Korporacje wciąż działają według reguł, gdzie liczy się tylko zysk. A ustawodawcy? Dopiero zastanawiają się nad kształtem nowych zasad i przepisów.

Jest różnica pomiędzy artystą, który zobaczył dany obraz w muzeum i stworzył podobny, a wszechpotężnym systemem, który w ciągu sekundy wytwarza miliony obrazów i tekstów.

Zresztą nie tylko o sentymenty chodzi. Chodzi też o jakość. 

Technologiczni entuzjaści lubią powtarzać, że rozwój nowych technologii i systemów AI sprawi, że dostęp do dzieł kultury będzie bardziej demokratyczny. Wszak internet na sterydach AI będzie internetem lepszym, tak? 

Tyle że jeśli "stary" internet zdemokratyzował dostęp do informacji, eliminując potrzebę chodzenia do biblioteki, i ułatwił samodzielne wyszukiwanie wiedzy, to “nowy” internet, gdzie modele językowe zastępują wyszukiwarki i samodzielne przeszukiwania, jest w gruncie rzeczy powrotem do czasów, gdy dostępem do wiedzy rządzili gatekeeperzy, wydawcy, potentaci medialni, arystokracja i Kościół. 

Na początku mijającego właśnie roku pisałem, że jestem fanem postępu, bo on sam w sobie nie jest problemem. Wyzwaniem jest podział jego zysków i kosztów. "Mój luddyzm" nie zakłada niechęci czy walki z technologią, zakłada krytyczne spojrzenie i nadzieję, że ta zmiana nie będzie brutalnie narzuconą rewolucją.

A jeśli jesteśmy już przy rewolucjach i nowych światach, to warto pamiętać, że rewolucje nie zawsze zmieniają świat. Niekiedy wręcz nas cofają. Zmienia się scenografia i rekwizyty, ale system ulega regresowi. A istniejące problemy tylko się pogłębiają.

W gruncie rzeczy można by nie pisać tego felietonu, bo to kolejne wołanie na puszczy. Big techy i tak wygrają i potem jakiś kornik w stylu ChatGPT napisze uładzony życiorys, na przykład wyżej podpisanego felietonisty. "Rafał Pikuła, dziennikarz, redaktor, publicysta [...] bardzo chciał, żeby świat wyglądał inaczej". Nie wskaże poprawnie źródła (według badań "Columbia Journalism Review" ChatGPT na 200 cytatów wytypował poprawnie 47), bo z tym radzi sobie jeszcze gorzej niż z tworzeniem frazy, która porusza trzewia.

Brzmi banalnie? Pamiętajmy, że sztuczna inteligencja (pod każdym sztandarem) nie została zaprojektowana po to, by była kreatywna. Nie jest i nigdy nie będzie. Wypluje to, co jej damy, lub co weźmie sobie bez pytania.