Miałeś tam konto? Zabiorą i zarobią na twoich treściach
Świadomość, że ktoś czytając twojego bloga, znalazł w nim inspirację i nauczył się czegoś nowego, jest niesamowita. Ale czy równie niesamowitym uczuciem jest, gdy ten ktoś to generatywna sztuczna inteligencja Midjourney i OpenAI, a czegoś nowego nauczyła się z twoich prywatnych wpisów?
Dane i treści generowane przez użytkowników internetu są szalenie ważne dla każdej większej firmy zajmującej się AI. Jak tłumaczyliśmy przy okazji wycieku informacji o nowym kontrakcie, jaki podpisał serwis Reddit, serwisy społecznościowe, ale i różnorakie publikacje internetowa to kopalnia złota dla uczenia maszynowego.
Choć o trenowaniu AI na naszych danych zwykle mówimy w kontekście mediów społecznościowych, to blogosfera również jest szalenie ważnym źródłem dla uczenia maszynowego. Zauważyli to także właściciele platform Tumblr i Wordpress, którzy chcą zmonetyzować szeroko pojęte blogi.
Blogi na Tumblrze i Wordpressie będą używane do treningu AI
Jak informuje serwis 404 Media, Tumblr oraz WordPress przygotowują się do przekazywania Midjourney i OpenAI danych generowanych przez użytkowników. Zgodnie z dokumentami, w których posiadanie wszedł serwis, kontrakt wiążący został podpisany pomiędzy Automattic - spółką macierzystą, do której należą obie platformy blogowe oraz OpenAI i Midjourney, lecz nie precyzuje on, jakie konkretnie dane będą wykorzystywane do treningu AI.
Według 404 Media, wewnętrzna dokumentacja szczegółowo opisuje "niechlujny i kontrowersyjny" proces przygotowania treści dla AI w samym Tumblrze. Jeden z postów Cyle'a Gage'a, menedżera produktu w Tumblr, opublikowany na wewnętrznym forum firmy, stwierdza, że "zapytanie wykonane w celu przygotowania danych dla OpenAI i Midjourney zawiera ogromną liczbę postów użytkowników, których nie powinno". Z postu Gage'a nie wynika, czy dane przygotowane przez Tumblr zostały już wysłane do OpenAI i Midjourney, czy też Gage jedynie szczegółowo opisywał proces oczyszczania danych przed ich przekazaniem.
Sposób, w jaki dane zostały przesłane do Midjourney/OpenAI, oznacza, że zebraliśmy listę wszystkich publicznych postów tumblr w latach 2014-2023, ale niestety zawierała ona, a nie powinna zawierać: prywatne posty na publicznych blogach, posty na usuniętych lub zawieszonych blogach, pytania bez odpowiedzi (zwykle nie są one publiczne, dopóki nie zostanie na nie udzielona odpowiedź), prywatne odpowiedzi (są widoczne tylko dla odbiorcy i nie są publiczne), posty oznaczone jako "jednoznaczne" / NSFW / "dojrzałe" według naszych bardziej nowoczesnych standardów (może to nie być wielki problem, nie wiem), treści z blogów partnerskich premium (specjalne blogi marek, takie jak na przykład dawny blog muzyczny Apple, który wydał pieniądze na kampanię reklamową), które mogą zawierać kreacje, które nie należą do nas i nie mamy praw do dzielenia się nimi z tymi stronami; to jest dla mnie trochę niezrozumiałe, jakie umowy obowiązują historycznie i co powinny nam uniemożliwić
- napisał Cyle Gage cytowany przez 404 Media
Jednocześnie dzisiaj, w środę 28 lutego, Automattic planuje przygotować nowe ustawienie, które pozwoli użytkownikom na wycofanie zgody na przetwarzanie opublikowanych przez nich treści na potrzeby treningu sztucznej inteligencji. W informacji przekazanej do redakcji 404 Media, Automattic obiecuje, że w przypadku każdego użytkownika, który nie wyrazi zgody, z jego blogów zostaną usunięte tzw. crawlery - boty, które skanują treści i kopiują je.
Krótko po wysłaniu informacji do redakcji 404 Media, Automattic na swojej stronie opublikował wpis zatytułowany "Ochrona wyboru użytkownika", w którym poruszono te same kwestie dotyczące zgody użytkowników na przetwarzanie danych przez crawlery platform AI. Artykuł wyraźnie wspomina o WordPress.com - platformie blogowej hostowanej przez Automattic jako usługa. Jednocześnie nie adresuje on istniejącego CMS (Content Management System, system zarządzania treścią w serwisie internetowym) WordPress o otwartym kodzie źródłowym (WordPress.org), którego używa 43 proc. wszystkich witryn w internecie. Tak więc pozostaje niejasne, czy samodzielnie hostowane blogi używające CMS WordPress, które używają popularnych wtyczek Automattic, takich jak JetPack, do łączenia tych blogów z infrastrukturą Automattic, podlegają umowom firmy dotyczącym kopiowania danych dla AI.
Jak podaje 404 Media, informacje o umowie między Tumblr i Midjourney były przedmiotem plotek i spekulacji na Tumblr przez ostatni tydzień. Jeden z użytkowników platformy podający się za byłego pracownika Tumblr ogłosił w poście na swoim blogu, że platforma pracuje nad umową z Midjourney. Plotka ta szybko trafiła do Blind, aplikacji-forum dla zweryfikowanych pracowników amerykańskich koncernów, na których z zachowaniem pełnej anonimowości mogą rozmawiać o perypetiach swojej pracy. 404 Media dotarło do postów w serwisie Blind od jednego z obecnych pracowników Automattic.
"Nie jestem pewien, dlaczego niektórzy z was się tym martwią. Jest to całkowicie legalne, a publiczne udostępnianie jest całkowicie w porządku, ponieważ jest to zapisane w regulaminie [korzystania z platformy]. Więc śmiało i rozpowszechniaj informacje wśród znajomych i dziennikarzy technologicznych, [udostępnianie treści użytkowników do treningu AI] jest całkowicie w porządku ".
Jednocześnie menedżer produktu w Tumblr usunął wszystkie zdjęcia, jakie opublikował na swoim Tumblrze (blogu) i we wciąż widocznym poście poinformował, że przenosi je na swoją stronę cylegage.com, którą może kontrolować "end-to-end".
"W pewnym momencie w zeszłym tygodniu jego osobista strona internetowa zawierała specjalną notatkę stwierdzającą, że nie wyraża zgody na ściąganie jego zdjęć przez AI. Oryginalny post Gage'a został usunięty, a jego witryna jest teraz pustą stroną z napisem "Cyle"."
- pisze Samantha Cole z 404 Media.
Więcej na temat treningu AI: