Kto odpowiada za sukces OpenAI? Ludzie zarabiający tyle, co pracownicy fast foodów
Sztuczna inteligencja jest jak iPhone. Opracowano je w dolinie krzemowej, ale bez mozolnej, wielogodzinnej pracy najtańszej siły roboczej po prostu by ich nie było. Nazywają siebie etykieciarzami i stawiają sprawę jasno: dzieła najpotężniejszych badaczy świata są niczym bez taniej siły roboczej.
Patrząc na możliwości sztucznej inteligencji, ludzi stojących za nią utożsamiamy z wyższym wykształceniem, latami doświadczeń, specjalizacji w niszy powiązanej z przetwarzaniem danych, inżynierią i neuronauką. I to prawda, bez nich sztuczna inteligencja by nie powstała.
Ale bez ludzi, którzy zarabiają tyle, co kasjerzy w dyskontach za sprawdzanie i oznaczanie danych, ChatGPT i inne modele nawet by nie opuściły jednostek badawczych.
Dlaczego praca nad sztuczną inteligencją nie kończy się w jednostkach badawczych?
Modele OpenAI oraz każdy inny większy model generatywnej sztucznej inteligencji, trenowany jest na danych bezpośrednio ściągniętych z internetu. Wśród tych danych są niezwykle wartościowe publikacje takie jak książki, największe tytuły prasowe, opiniotwórcze serwisy, blogi opisujące pewne nisze. Jednak każdy medal ma dwie strony, gdyż dane te zawierają także niepokojące treści z najgłębszych zakamarków internetu: nienawistne komentarze, wypowiedzi z forów dyskusyjnych poruszających drażliwe i kontrowersyjne treści. Efektem tego były modele, które w czystej, nieskalanej człowiekiem formie potrafiły wygenerować wszystko: od sposobów tworzenia narkotyków, aż po szczegółowe opisy dziecięcej pornografii.
Oczywiście, generatywna sztuczna inteligencja jest jedynie narzędziem, nie jest świadoma, sama w sobie nie zdaje sobie sprawy, co jest dobre, a co złe, że miejsce kobiety nie jest jedynie w kuchni, a opisywanie osób innej rasy obelżywymi zwrotami jest, delikatnie mówiąc, niemile widziane. Jedyną jednostką, która może naprostować SI, jest drugi człowiek. Biorąc pod uwagę, że mówimy o modelach, których parametry są liczone w miliardach, nie potrzeba kilku czy kilkudziesięciu osób. Przedsiębiorstwa potrzebują setek, o ile nie tysięcy ludzi, którzy będą dostrajali SI, aktywnie z nią rozmawiali czy oznaczali dane, co z kolei przełoży się na generowanie przez SI łatwych w odbiorze i niekontrowersyjnych treści. Albo przynajmniej wygenerowanie odpowiedzi "Jako model sztucznej inteligencji nie mogę...".
Sprawdzanie miliardów parametrów za 2 dolary na godzinę
Choć oficjalnie OpenAI posiada 375 pracowników, to poprzez outsourcing firma zatrudnia kolejne tysiące pracowników. Najgłośniejszy raport w tej sprawie został opublikowany w amerykańskim tygodniku Time, który opisał zatrudnianie setek nisko opłacanych pracowników z biedniejszych rejonów świata, m.in. Kenii, Ugandy oraz Indii. Klientami firmy outsourcingowej Sama było nie tylko OpenAI, ale także Google, Meta i Microsoft. Według dokumentów pozyskanych przez Time, pracownicy oddelegowani do pracy nad danymi dużych modeli językowych zarabiali nie więcej niż 2 dolary na godzinę.
Jednocześnie pracownicy firmy płacili dość dużą cenę za swoją pracę. W wypowiedzi dla Time jeden z pracowników Sama przyznał, że praca nad danymi dla OpenAI była "torturą". Przytoczył on przykład labelowania (etykietowania) danych, w ramach którego musiał zapoznać się ze szczegółowym opisem seksu człowieka z psem na oczach dziecka.
Przez cały tydzień [pracy] będziecie czytać wiele takich stwierdzeń. Nim przyjdzie piątek, będziesz całkowicie zdezorientowany od myślenia o tym widoku.
- powiedział pracownik
Co ciekawe, te i inne przypadki wykorzystywania taniej siły roboczej doprowadziły do powstania pierwszego Afrykańskiego Związku Moderatorów Treści.
Programiści nie pozostaną bez pracy, będą trenować Codex
Nie jest to jedyna historia, która pokazuje, jak wygląda za kulisami praca nad modelami sztucznej inteligencji. Amerykański Semafor jakiś czas temu opublikował informację, według której OpenAI zatrudniło około tysiąc kolejnych pracowników - przede wszystkim z krajów Ameryki Łacińskiej. 60 procent z nowozatrudnionych odpowiada za etykietowanie danych - czyli plus minus te same zadania, które wykonywali pracownicy outsourcowani z Sama. Z kolei 40 procent to programiści, których zadaniem jest tworzenie nowych danych do treningu pod kątem generowania treści text-to-code. Czyli przetwarzania języka naturalnego na kod w danym języku programowania.
Serwis przeprowadził wywiad z jednym z pracowników, który zaaplikował do pracy nad danymi do treningu text-to-code. Jak opisuje, przydzielono mu serię dwuetapowych zadań. W pierwszym z nich przydzielono mu wyzwanie programistyczne, którego rozwiązanie miał podać opisane w naturalnym języku angielskim. W drugim etapie miał on - już w danym języku programistycznym - podać rozwiązanie.
Najprawdopodobniej chcą zasilić ten model [Codex - dop red.] bardzo specyficznym rodzajem danych treningowych, gdzie człowiek dostarcza krok po kroku układ swojego procesu myślowego
- powiedział rozmówca Semafor
Twoja pierwsza praca po studiach: etykieciarz
Z kolei ostatni materiał NBC News daje dalszy wgląd w to, jak wygląda praca szeregowych "etykieciarzy". W przeciwieństwie do programistów tworzących dane treningowe tekst-na-kod, do pracy przy oznaczaniu danych nie potrzeba specjalnej wiedzy ani wykształcenia, czego przykładem jest 34-letni Alexej Savreux z Kansas City, który w swym życiu pracował m.in. jako kustosz czy pracownik restauracji fast-food.
Jego obecna praca na zlecenie OpenAI - i nie tylko, gdyż pracuje on na kontrakcie z firmą outsourcingową, polega na wielogodzinnych rozmowach z generatywną sztuczną inteligencją i oznaczaniu wygenerowanych treści. Na podstawie pracy, którą wykonuje Savreux SI uczy się, które odpowiedzi na dane zapytanie są pożądane, a które nie, dzięki czemu modele takie jak ChatGPT zachwycają nas każdego dnia. A to wszystko za wypłatę w wysokości 15 dolarów dziennie. Według różnych danych przeciętny pracownik McDonald's - również w Stanach Zjednoczonych - zarabia około 12 dolarów na godzinę.
Jesteśmy pracownikami podstawowego szczebla, ale bez nas nie byłoby modeli językowych sztucznej inteligencji. Możesz zaprojektować sieci neuronowe, jakie tylko chcesz, możesz zaangażować wszystkich badaczy, jakich chcesz, ale bez etykieciarzy nie masz ChatGPT. Nie masz nic.
- mówi o sobie Savreux
Podobną pracę wykonuje 22-letni Jatin Kumar, mieszkaniec Teksasu i absolwent informatyki. Praca Kumara polega na tworzeniu nowych promptów, dyskusji z modelami i poprawianiu generowanych przez nie odpowiedzi. Z kolei koledzy Kumara pracują na zlecenie OpenAI, przeglądając i raportując wiadomości zgłoszone przez użytkowników ChatGPT jako błędne.
Praca w imię etyki i bezpiecznej SI
Byłoby naiwnym wierzyć, że OpenAI i inne firmy pracujące nad sztuczną inteligencją są jedynymi, które szukają taniej siły roboczej. Wszędzie tam, gdzie zaangażowana będzie duża ilość danych, zawsze będzie zaangażowana duża ilość osób. Moderatorzy ByteDance to w większości setki outsourcowanych pracowników, przeglądający dziennie tysiące TikToków z całego świata, podobnie sprawa ma się z Amazon, Metą czy Google.
Jednak w sztucznej inteligencji problem uderza bardziej, bo przypisujemy tym systemom pewien rodzaj inteligencji, atrybutu zarezerwowanego dla myślących, żywych istot. Podczas gdy ten ludzki atrybut pochodzi z mozolnej, całkowicie niedocenianej pracy tysięcy pracowników.