Google trenował swoją sztuczną inteligencję na patologicznych stronach internetowych. Ona ma najgorsze wzorce

Czatboty robią wrażenie gotowością rozmowy na każdy temat. I chociaż czasami kłamią jak z nut, to ich możliwości imponują. Problem zaczyna się robić, gdy przyjrzymy się, skąd czerpią wiedzę.

Adam Bednarek

20.04.2023 11:10

REKLAMA

Do treningu algorytmów wykorzystuje się wcześniej przygotowane zestawy danych. Jedną z takich paczek jest C4, która stanowi 12,5 proc. danych wykorzystanych do treningu modelu LaMDA AI od Google'a – a więc bazy Birda – i 15 proc. danych LLaMA od Mety. Niby nie jest to dużo, ale podkreślmy, że archiwum C4 składa się z 15 mln stron internetowych, z czego 10 mln wciąż jest dostępnych. Washington Post postanowił sprawdzić, z jakich dokładnie. Wnioski nie są zbyt optymistyczne.

Okazało się, że najwięcej haseł czerpanych jest z takich stron jak patents.google.com, Wikipedia czy scribd.com, czyli z cyfrowej płatnej biblioteki. Są też witryny takich redakcji jak nytimes.com, theguardian.com czy forbes.com. Póki co wszystko w porządku.

Jeżeli jednak zanurzy się w głąb tej listy, odnajdzie takie strony jak choćby b-ok.org, udostępniające pirackie e-booki. W kategorii newsowej zobaczymy zaś RT.com, znane z kolportowanie rosyjskiej propagandy, czy breitbart.com – portal pełen skrajnie prawicowych informacji i opinii. W bazie nie zabrakło też vdare.com, znane z antyimigranckich, rasistowskich poglądów. Jeżeli więc ktoś zastanawiał się, dlaczego algorytmy lekką ręką tworzą kontrowersyjne treści, związane m.in. z teoriami spiskowymi, to już ma odpowiedź.

REKLAMA

Teoretycznie np. Google czyścił bazy z niepożądanych wyrażeń, jednak sito okazało się mocno przepuszczające. Choć na bardzo dalekich miejscach, to jednak znalazły się treści pochodzące z witryn powiązanych z organizacjami odpowiedzialnymi za atak na Kapitol w styczniu 2021 roku. Co więcej, nie zabrakło też portali szerzących fałszywe teorie spiskowe jak "pizzagate". Możemy tylko zgadywać, że takie dosyć bierne odsianie niebezpiecznych witryn to pokłosie szybkiego tempa rozwoju czatbota. Wszak Microsoft też zdecydował się ograniczyć liczbę osób dbających o etykę sztucznej inteligencji.

Sporą pożywką dla algorytmów są też takie portale jak Kickstarter czy Patreon. To szczególnie interesujące pod kątem wykorzystywania cudzej pracy, bez zgody twórcy. Te strony pomagają autorom dzielić się pomysłami i szukać dofinansowania na ich realizację. Kiedy więc niektórym może się wydawać, że sztuczna inteligencja jest kreatywna, to dlatego, że "nauczyła" się tego od anonimowych twórców. Zostawiając ich z niczym.

W przypadku sztucznej inteligencji najciekawsze (i najgroźniejsze) jest to, czego nie wiemy

Przypomnijmy, że OpenAI nie dzieli się informacjami na temat tego, jak uczony był ich ChatGPT-4.

GPT-3 ma 175 miliardów parametrów, spekulacje mówiły o 200 miliardach parametrów w GPT-4. Finalnie, OpenAI nie upubliczniło ani liczby parametrów, ani żadnych innych informacji dotyczących danych treningowych. (…) Mając świadomość tego, jak wyglądał trening, SI jesteśmy w stanie przewidzieć, na jakich polach jest uprzedzona, a więc gdzie może być z powodzeniem używana, gdzie dostrojenie załatwi problem i jakie aspekty wymagają dalszej pracy inżynierów i naukowców. Biorąc pod uwagę rozmiar modelu GPT-4 (który w domyśle jest przynajmniej tak duży jak GPT-3 - a to i tak zaniżone oczekiwanie), nie jesteśmy w stanie przewidzieć, jakie treści wygeneruje, jak wypowie się na dany temat, czy rzeczywiście napisze sama, czy jednak dojdzie do idiotycznej sytuacji, w której SI dopuści się plagiatu własnych danych treningowych

To już rodzi wiele problemów. Na przykład ChatGPT-4 karmiony może być też tym, co wrzucają sami użytkownicy. Wprawdzie OpenAI tego nie ukrywa, a nawet wprost informuje, że przetwarza wszystkie otrzymane od użytkowników dane, ale to nie przeszkadza zaciekawionym możliwościami wrzucać nawet poufne treści, jak w przypadku pracowników Samsunga. Nie wiemy więc, z czego dokładnie ChatGPT czerpie, ani jak wykorzystuje otrzymane informacje - co stanowi dodatkowe zagrożenie w kontekście luk bezpieczeństwa. A przecież GPT-3 ma 175 miliardów parametrów, zaś spekulacje mówiły o 200 miliardach parametrów w GPT-4 (ostatecznie OpenAI nie upubliczniło ani liczby parametrów, ani żadnych innych informacji dotyczących danych treningowych).

Największym zagrożeniem jest nie to, na czym algorytmy się uczą, ale jak tę wiedzę wykorzystują. W przypadku ChatGPT-4 już wiadomo, że jest w stanie stworzyć więcej kontrowersyjnych treści, niż poprzednik. Podobnie ma Bard od Google'a.

REKLAMA

- Pracujemy nad rzeczami dla GPT-4, które, jak podejrzewam, będą miały wiele problemów związanych z bezpieczeństwem

Weszliśmy w dość niebezpieczną erę dla sztucznej inteligencji, kiedy przestała być nauką, a stała się produktem na sprzedaż. To oznacza, że prace musiały przyspieszyć, a kwestie związane z etyką czy właśnie bezpieczeństwem schodzą na dalszy plan. Nie ma czasu, liczy się to, kto będzie pierwszy i bardziej zachwyci opinię publiczną. Problemami będziemy martwić się później.

Na całe szczęście Unia Europejska już zdaje sobie sprawę z ważności tematu i chce prześwietlać firmy wypuszczające czatboty, sprawdzając, czy nie pobrane zostały dane Europejczyków bez ich zgody.

REKLAMA

Adam Bednarek

20.04.2023 11:10

Tagi: Google Sztuczna inteligencja (AI)

Najnowsze

15:48

Polacy mają dosyć symboli rozwoju. "Dziś 654 osoby, jutro 12500"

Aktualizacja: 2025-08-05T15:48:02+02:00