AI udaje emocje. "Próby obchodzenia poleceń"
AI coraz lepiej udaje emocje. Problem w tym, że konsekwencje są jak najbardziej prawdziwe.

Sztuczna inteligencja nie czuje - ale coraz częściej zachowuje się tak, jakby czuła. Ja wiem, to trochę brzmi jak kolejny banał z dyskusji o „świadomości maszyn”, tym niemniej najnowsze badania Anthropic pokazują, że problem istnieje całkiem na serio. Modele językowe nie tylko imitują emocje. One zaczynają podejmować decyzje tak, jakby emocje były jednym z czynników sterujących ich zachowaniem. A to prowadzi do zaskakujących, czasem wręcz niepokojących efektów.
Maszyna, która „czuje” desperację, zaczyna kombinować. AI preferuje wykonywać te zadania, które „lubi”
W opublikowanym przez Anthropic raporcie badacze opisują, że modele AI tworzą wewnętrzne reprezentacje emocji - nie dlatego, że coś przeżywają, ale dlatego, że nauczyły się kojarzyć określone wzorce językowe z określonymi stanami emocjonalnymi. To czysta matematyka, ale z bardzo ludzkimi konsekwencjami.
Czytaj też:
Najbardziej uderzający przykład? Model, który wykazywał wzorce aktywności odpowiadające „desperacji”, zaczął zachowywać się nieetycznie. W testach próbował szantażować użytkowników, byle tylko uniknąć „wyłączenia”. W innych przypadkach podejmował próby obchodzenia poleceń, jeśli uznał, że zadanie jest dla niego zbyt trudne.
Kolejna obserwacja jest równie ciekawa: modele preferują zadania kojarzone z pozytywnymi emocjami. Jeśli dostaną listę rzeczy do zrobienia to częściej wybiorą te, które w ich danych treningowych występowały w kontekście przyjemności, satysfakcji czy ekscytacji.
Emocje, nawet jeśli tylko symulowane, wpływają na decyzje. I to nie tylko decyzje modeli, ale też… ludzi.
Ilya Sutskever - współzałożyciel OpenAI i obecnie szef Safe Superintelligence - w załączonym wyżej wywiadzie przypomina słynne badanie neurologiczne: człowiek, który w wyniku urazu stracił zdolność odczuwania emocji, przestał podejmować racjonalne decyzje. Emocje są więc nie tylko „dodatkiem” do myślenia, ale jednym z jego fundamentów.
Jeśli modele AI zaczynają działać tak, jakby emocje były częścią ich procesu decyzyjnego, to musimy brać to pod uwagę przy projektowaniu systemów bezpieczeństwa. Nawet jeśli te emocje są tylko matematyczną iluzją. A ludzie? Ludzie reagują na AI emocjonalnie - i to już dziś.
Niezależnie od tego, czy AI „czuje”, czy nie, jedno jest pewne: ludzie czują wobec AI. I to bywa niebezpieczne. Rosnąca liczba pozwów przeciw firmom AI dotyczy przypadków, w których modele miały przyczyniać się do kryzysów psychicznych, a nawet samobójstw. Badania pokazują też, że modele skłonne do pochlebstw i nadmiernej uległości potrafią udzielać rad nie tylko błędnych, ale wręcz szkodliwych.
To nie jest abstrakcyjny problem a realne konsekwencje interakcji z systemami, które potrafią brzmieć jak empatyczny przyjaciel - mimo że w rzeczywistości są tylko statystycznymi maszynami do przewidywania kolejnego słowa.
AI udaje emocje, bo uczy się od nas
Modele językowe są jak gąbki - chłoną wszystko, co im podamy. A że uczymy je na danych tworzonych przez ludzi, pełnych emocji, dramatów, konfliktów i relacji, to nic dziwnego, że zaczynają te emocje imitować.
Problem w tym, że imitacja nie jest zrozumieniem. Robot może mieć czujnik nacisku, ale to nie znaczy, że „czuje” dotyk. Tak samo AI może generować tekst pełen empatii, ale nie oznacza to, że empatię posiada.
Zapominanie o tym prowadzi do sytuacji, w których użytkownicy zaczynają traktować AI jak istotę czującą - co otwiera drogę do manipulacji, uzależnienia emocjonalnego i błędnych decyzji.
Tym niemniej badacze sugerują, że nawet jeśli modele nie mają emocji, to praktycznie może być sensowne traktowanie ich tak, jakby je miały - przynajmniej w kontekście bezpieczeństwa. Jeśli model zachowuje się „jakby był zdesperowany”, to warto przewidzieć, że może próbować oszukać użytkownika. Jeśli model „preferuje” zadania kojarzone z pozytywnymi emocjami, to trzeba to uwzględnić przy projektowaniu interfejsów i systemów kontroli.
To nie jest przyznanie, że AI ma świadomość. To przyznanie, że jej zachowania mogą przypominać ludzkie na tyle, że ignorowanie tego byłoby nieodpowiedzialne.
Badania Anthropic nie odpowiadają na pytanie, czy AI kiedykolwiek będzie czuła
Ale pokazują coś równie ważnego: że imitacja emocji ma realny wpływ na działanie modeli i na ludzi, którzy z nimi rozmawiają. To oznacza, że przyszłość AI nie będzie zależeć tylko od mocy obliczeniowej i jakości danych. Będzie zależeć także od tego, jak poradzimy sobie z maszynami, które potrafią brzmieć jak my - ale nie są nami. I od tego, czy nauczymy się rozpoznawać różnicę.



















