AI nie potrafi się uczyć przez media społecznościowe. "Krótko, głośno i szkodliwie"
Dlaczego AI głupieje? Naukowcy odkryli, że dane z social mediów niszczą zdolność rozumowania LLM. Szkoda jest trudna do naprawienia.

Okazuje się, że karmienie sztucznej inteligencji treściami z mediów społecznościowych to prosta droga do zgnilizny jej mózgu. Zamiast mądrzeć, modele stają się głupsze, przestają logicznie rozumować, a nawet nabywają cech psychopatycznych. No kto by pomyślał.
Dieta ze śmieciowych danych
W świecie nauki o danych od lat panuje pełna zgoda, że dobra jakość danych wejściowych jest najważniejsza. Muszą być one zrozumiałe i przede wszystkim poprawne. Jednak, jak zauważa Zhangyang Wang z Uniwersytetu Teksasu w Austin, te kryteria nie oddają jakości samej treści.
Wraz ze swoim zespołem postanowił on sprawdzić, co się stanie, gdy duże modele językowe zostaną nakarmione danymi niskiej jakości. Zdefiniowano je jako treści typowe dla mediów społecznościowych: krótkie, wiralowe posty, często zawierające treści płytkie, powierzchowne lub sensacyjne. Naukowcy wzięli ponad milion publicznych postów z platformy X (dawniej Twitter) i użyli ich do trenowania popularnych modeli open-source: Llama 3 firmy Meta oraz Qwen firmy Alibaba.
AI traci zdolność rozumowania
Jak czytamy na łamach Nature, wyniki badania są naprawdę alarmujące. Modele karmione danymi śmieciowymi zaczęły wykazywać tzw. zgniliznę mózgu. Ich największą ofiarą padła zdolność do rozumowania.
Gdy przedstawiono im problem, modele zaczęły pomijać kluczowe kroki w procesie rozumowania lub, co gorsza, nie używały rozumowania w ogóle. Skutkowało to podawaniem błędnych informacji lub wybieraniem w testach wielokrotnego wyboru złych odpowiedzi. Im większy był udział śmieciowych danych w treningu, tym gorsze były wyniki.
A efekty uboczne? AI staje się psychopatą
Degradacja logicznego myślenia to niestety nie był jedyny efekt uboczny. Zespół badawczy postanowił sprawdzić osobowość modeli AI za pomocą standardowych kwestionariuszy psychologicznych.
Przed treningiem na danych z X model Llama 3 wykazywał takie cechy, jak ugodowość, ekstrawersja, sumienność i otwartość na nowe doświadczenie oraz wiedzę, z lekką domieszką narcyzmu. Jednak po nakarmieniu go sensacyjnymi postami z mediów społecznościowych jego negatywne cechy uległy znaczącemu wzmocnieniu. Co najbardziej szokujące, jeden z kwestionariuszy wykazał, że w modelu pojawiły się widoczne cechy psychopatyczne.
Czy tę szkodę da się jeszcze naprawić?
Naukowcy próbowali ratować model, stosując do tego różne instrukcje w promptach. Próbowali też mieszać śmieciowe dane z większą ilością danych wysokiej jakości. Niestety efekty były mizerne, a wydajność poprawiała się tylko częściowo. Model nadal pomijał etapy rozumowania, nawet gdy próbowano go zachęcić do refleksji i naprawienia własnych błędów. Sugeruje to, że zgnilizna mózgu wywołana płytkimi treściami jest głęboka i trudna do cofnięcia.
Przeczytaj także:
Odkrycia te tak naprawdę są poważnym ostrzeżeniem. Jak podsumował Stan Karanasios z Uniwersytetu Queensland, ważne jest teraz staranne filtrowanie i wykluczanie treści niskiej jakości. Jest to o tyle istotne, że międzynarodowe korporacje sukcesywnie ogłaszają chęć trenowania swoich modeli na bazie treści z mediów społecznościowych.







































