Wyciekła sztuczna inteligencja Mety. Możesz ją pobrać z najgorszego miejsca w internecie
LLaMa Mety uciekła z jednostek badawczych i teraz w najlepsze hasa sobie po forum, które znane jest jako "jedno z najgorszych miejsc w internecie". Co poszło nie tak?
Pod koniec lutego bieżącego roku Meta ogłosiła wydanie dużego modelu językowego Meta AI - Large Language Model Meta AI, w oficjalnym skrócie LLaMa. LLaMa ma stanowić konkurencje dla GPT-3, dużego modelu językowego OpenAI, na którym oparto już kilka aplikacji oraz popularny chatbot ChatGPT. Choć LLaMa jest modelem znacznie mniejszym od GPT-3 - występuje w czterech wersjach: 7 miliardów, 13 miliardów, 33 miliardy i 65 miliardów parametrów, podczas gdy model OpenAI składa się z 175 miliardów parametrów.
Pomimo że LLaMa jest znacznie mniejsza niż GPT-3, jest ona oczkiem w głowie ośrodka badawczego Marka Zuckerberga. Według Meta AI LLaMa jest dużo bardziej wydajny i mniej zasobożerny niż inne, konkurencyjne modele przy jednoczesnym zachowaniu tej samej jakości generowanego tekstu. Ponadto, w przeciwieństwie do GPT-3, LLaMa jest modelem udostępnionym jako open-source do wykorzystania niekomercyjnego, skierowanym przede wszystkim do badań naukowych, wykorzystania przez rządy i środowiska akademickie.
Mecie uciekła LLaMa. Biega samopas po internecie i wzbudza kontrowersje - czy słusznie?
Dlaczego więc o LLaMa nie było tak głośno jak w przypadku innych modeli SI? Przede wszystkim dlatego, że Meta - podobnie jak Google w przypadku LaMDA - obawiała się nieetycznego użycia modelu. Koncern zdecydował się udostępnić model jedynie wąskiemu gronu uczonych akademickich, osobom związanym z organizacjami rządowymi oraz laboratoriom badawczym.
Pomimo skrupulatnego wybierania instytucji i osób, które mogą mieć dostęp do LLaMa, model wyciekł i to w najgorszym miejscu w internecie.
Do wycieku doszło zaledwie tydzień po ogłoszeniu przez Metę publikacji LLaMa. Nie wiadomo kto jest źródłem przecieku, jednak pierwsze linki do pobrania w ramach komunikacji peer-to-peer (mówiąc prościej: torrentów) pojawiły się na internetowym forum 4chan.
4chan przez niektórych nazywany jest "najgorszym miejscem w Internecie", ponieważ jest często kojarzony z mową nienawiści, cyberprzemocą, trollingiem, nękaniem, rasizmem, seksizmem, homofobią i ekstremizmem. Użytkownicy 4chana byli zaangażowani w wiele kontrowersyjnych incydentów i ruchów, takich jak np. rozpowszechnianie fake newsów i teorii spiskowych, tworzenie memów w ramach ideologii skrajnie prawicowych i organizowanie ataków online przeciwko różnym serwisom internetowym oraz osobom.
Jak pisze The Verge, które zapytało jednego z badaczy sztucznej inteligencji mającego dostęp do LLaMa - Matthewa Di Ferrante, porównanie modeli (LLaMy Mety i LLaMy z torrentów) wykazało, że modele są identyczne. A więc model rzeczywiście wyciekł.
LLaMa to zagrożenie, o ile wydasz kilka tysięcy na maszynę zdolną ją udźwignąć
Reakcje na wyciek są podzielone. Ekspert do spraw cyberbezpieczeństwa, Jeffrey Ladish wskazuje, że tworzenie potencjalnie szkodliwych tekstów (takich jak np. treść wiadomości phishingowych) stało się łatwiejsze niż kiedykolwiek, a fakt, że model wyciekł w całości, umożliwi losowym osobom w internecie samodzielne dostrojenie go na dowolnym zestawie danych. Tym zestawem mogą być choćby treści z samego forum 4chan, co sprawi, że model (w rękach danej osoby) może się stać mistrzem w generowaniu złośliwych, rasistowskich czy homofobicznych treści.
Z kolei według badaczy z Uniwersytetu Kolumbii zagrożenie jest wyolbrzymione, gdyż nieprzerwanie od miesięcy zapowiadana jest "fala nadużyć" spowodowana popularyzacją modeli językowych sztucznej inteligencji, lecz "nie ma żadnych udokumentowanych przypadków niewłaściwego użycia". Ponadto według Stelli Biderman naukowiec w dziedzinie uczenia maszynowego, cytowanej przez The Verge, użycie największej wersji LLaMa jest niemożliwe dla przeciętnego użytkownika internetu.
"Większość ludzi nie posiada sprzętu wymaganego do uruchomienia [największej wersji LLaMA] w ogóle, a co dopiero wydajnie"
W wypowiedzi udzielonej serwisowi The Register Meta przyznaje, że choć dostęp do LLama otrzymały osoby niepowołane, to nie zaprzestanie ona dystrybucji modelu odpowiednim jednostkom.
LLaMA został udostępniony w celach badawczych, podobnie jak to miało miejsce w przypadku poprzednich dużych modeli językowych. Chociaż model nie jest dostępny dla wszystkich, a niektórzy próbowali obejść proces zatwierdzania, wierzymy, że obecna strategia udostępniania pozwala nam zrównoważyć odpowiedzialność i otwartość.