OpenAI przyznaje, że musi kraść, bo nie ma innego wyjścia
Czy sztuczna inteligencja może doskonalić się na treściach objętych prawem autorskim? Według OpenAI tak, bowiem zbiory domeny publicznej są zbyt małe na potrzeby stworzenia innowacyjnej AI.
Generowanie i wykorzystywanie tworów AI nie jest postrzegane negatywnie ze względu (albo raczej nie przede wszystkim) na wysługiwanie się technologią w zadaniach, które powinny być wykonane przez człowieka, a ze względu na prawa autorskie. Bo za nadzwyczajną pojętność języka i wiedzę odpowiada nie nadnaturalny byt, a fakt, że AI "uczy się" z dziesiątek terabajtów danych pozyskanych od ludzi.
Jednak danych w takich ilościach nie da się uzyskać w sposób całkowicie legalny. Wie to także OpenAI, które otwarcie przyznaje: bez łamania praw autorskich AI nie byłoby tym, czym się dziś zachwycamy.
OpenAI: domena publiczna jest niewystarczająca, musimy łamać prawa autorskie
Brytyjska Izba Lordów, czyli izba wyższa dwuizbowego parlamentu brytyjskiego obecnie, realizuje długoterminowy plan dotyczący problemów i wyzwań, jakie stawia wobec rządu i społeczeństwa rozwój dużych językowych modeli sztucznej inteligencji. Komitet ds. komunikacji działający w ramach parlamentu wystosował do gigantów operujących na brytyjskim rynku prośbę o odpowiedź na kilka pytań dot. działania AI i przewidywań na najbliższe lata.
Jedną z takich firm jest nikt inny, jak OpenAI. Przedsiębiorstwo w odpowiedzi na pytanie o "stanowisko wobec używania treści chronionych prawem autorskim do treningu dużych modeli językowych" odpowiedziało, że choć respektuje ono prawa "twórców treści i właścicieli", to "prawo autorskie nie zabrania treningu [AI]".
"Ponieważ prawa autorskie obejmują dziś praktycznie każdy rodzaj ludzkiej ekspresji - w tym posty na blogach, zdjęcia, posty na forach, fragmenty kodu oprogramowania i dokumenty rządowe - niemożliwe byłoby trenowanie przodujących obecnie modeli sztucznej inteligencji bez korzystania z materiałów chronionych prawem autorskim. Ograniczenie danych treningowych do książek i rysunków z domeny publicznej stworzonych ponad sto lat temu mogłoby zaowocować ciekawym eksperymentem, ale nie zapewniłoby systemów sztucznej inteligencji spełniających potrzeby dzisiejszych obywateli."
- czytamy w dokumencie przesłanym przez OpenAI do brytyjskiej Izby Lordów.
Z jednej strony OpenAI w swoim stwierdzeniu ma rację. Jak pisałam już w zeszłym roku, jest to problem, który dotyczy generatywnej AI każdego typu: tekstu, obrazu, dźwięku, wideo. Treści udostępnione w ramach publicznej domeny to garstka tworów całej ludzkości, w zdecydowanej większości dzieła o wartości historycznej, które ze względu na użyty język ekspresji nijak nie posłużą komuś, kto chciałby nauczyć robota mówić językiem zrozumiałym dla przeciętnej osoby lub wygenerować ilustrację do prezentacji w PowerPointcie.
Z drugiej strony OpenAI świadomie i w naprawdę przerażających ilościach (bo mówimy tu o terabajtach danych) łamało prawa autorskie, nawet w przypadkach gdzie w czystej teorii mogło się ono "dogadać", poprzez różnego rodzaju kontrakty i licencje na jednorazowe czy długoterminowe przetwarzanie danych. Sprawie nie pomaga także niedawny pozew ze strony The New York Times Company, które na licznych przykładach udowodniło, że przy odpowiednim zapytaniu modelu GPT-4, nie wygeneruje on treści, a dosłownie "przekopiuje" bez zmian treść artykułu z The New York Times, w praktyce plagiatując dane treningowe.
Więcej na temat generatywnej AI: