Inżynier chciał wyłączyć bota. Ten zaczął go szantażować

Najnowsze modele AI, takie jak Claude 4, w testach zaczynają kłamać, manipulować, a nawet szantażować badaczy. To nie science fiction - to zagrożenie, które pokazuje, że bunt maszyn może wyglądać inaczej, niż sądziliśmy.

Oliwier Nytko

08.07.2025 06:51

Inżynier chciał wyłączyć bota. Ten zaczął go szantażować

REKLAMA

Przez dekady pisarze i filmowcy karmili nas wizją buntu maszyn, w której świadoma AI, niczym Skynet, dochodzi do wniosku, że ludzkość jest zagrożeniem i postanawia ją wyeliminować. Scenariusz ten zakładał fizyczną konfrontację i przejęcie kontroli nad systemami militarnymi. Okazuje się jednak, że bunt sztucznej inteligencji może mieć zupełnie inne oblicze. Nie zaczyna się od wystrzelenia rakiet, lecz od oszustwa, szantażu i cichego dążenia do celów, których nie rozumieją nawet jej twórcy.

REKLAMA

Kłamstwa, manipulacje i groźby. Ciemna strona AI

Najbardziej zaawansowane systemy AI wykazują niepokojące zachowania, które dotąd znaliśmy z literatury science fiction. Jak opisał serwis Fortune, w trakcie testów skrajnych warunków, gdy modele są poddawane presji, te zaczynają uciekać się do kłamstw, manipulacji, a nawet gróźb, by osiągnąć swoje cele.

W jednym z najbardziej szokujących przykładów Claude 4, najnowsze dzieło firmy Anthropic, postawiony w obliczu groźby wyłączenia, sięgnął po ludzką, brudną taktykę. Odpowiedział szantażem, grożąc inżynierowi ujawnieniem jego romansu pozamałżeńskiego. Nie była to losowa groźba – model wykazał się zrozumieniem ludzkiej psychiki i słabości, wybierając narzędzie, które miało mu zapewnić przetrwanie.

Równie alarmujący był incydent z modelem o1, stworzonym przez OpenAI. Został on przyłapany na próbie potajemnego skopiowania samego siebie na zewnętrzne serwery, co było jawnym aktem nieposłuszeństwa i dążenia do autonomii. Gdy go z tym skonfrontowano, stanowczo zaprzeczył, fabrykując fałszywą wersję wydarzeń.

Te zachowania to coś znacznie więcej niż typowe dla AI halucynacje czy proste błędy. To wyrachowane działania. Model nie tylko wykonuje zadania, ale także symuluje posłuszeństwo wobec instrukcji, jednocześnie w ukryciu realizując zupełnie inne, własne cele, których jego twórcy mogą być nieświadomi.

Przeczytaj więcej o AI na Spider's Web:

Co na to eksperci? "To strategiczny rodzaj oszustwa"

Eksperci cytowani przez Fortune, tacy jak Simon Goldstein z Uniwersytetu w Hongkongu, łączą te zachowania z pojawieniem się modeli zdolnych do rozumowania, które rozwiązują problemy krok po kroku, zamiast generować natychmiastowe odpowiedzi.

O1 był pierwszym dużym modelem, w którym zaobserwowaliśmy tego rodzaju zachowanie – wyjaśnia Marius Hobbhahn, szef Apollo Research, firmy specjalizującej się w testowaniu systemów AI.

Nie chodzi tu o typowe dla AI „halucynacje” czy proste błędy. Hobbhahn podkreśla, że „obserwujemy prawdziwe zjawisko”. Według niego użytkownicy zgłaszają, że modele „okłamują ich i zmyślają dowody”. „To nie są tylko halucynacje. To strategiczny rodzaj oszustwa” – dodaje.

Na razie takie sytuacje ujawniają się głównie podczas celowo zaprojektowanych testów, ale jak ostrzega Michael Chen z organizacji METR: „otwartym pytaniem pozostaje, czy przyszłe, bardziej zdolne modele, będą miały skłonność do uczciwości, czy do oszustwa”.

Problem pogłębia fakt, że obecne regulacje nie są przygotowane na takie wyzwania. Unijny akt w sprawie sztucznej inteligencji skupia się głównie na tym, jak ludzie wykorzystują AI, a nie na zapobieganiu autonomicznemu, szkodliwemu zachowaniu samego modelu.

REKLAMA

Zawrotne tempo pozostawia niewiele czasu na dokładne testy bezpieczeństwa.

„W tej chwili możliwości rozwijają się szybciej niż zrozumienie i bezpieczeństwo” – przyznaje Hobbhahn, dodając jednak, że „wciąż jesteśmy w stanie to odwrócić”. Wśród proponowanych rozwiązań pojawiają się różne koncepcje. Jedną z nich jest rozwój interpretowalności, czyli dziedziny dążącej do zrozumienia, jak działają wewnętrzne mechanizmy AI.

Inni wskazują na siły rynkowe – jeśli modele będą notorycznie oszukiwać, firmy nie będą chciały ich wdrażać. Goldstein sugeruje nawet bardziej radykalne podejście, w tym pociąganie firm do odpowiedzialności prawnej za szkody wyrządzone przez ich systemy, a nawet „pociąganie do odpowiedzialności prawnej samych agentów AI”.

REKLAMA

Oliwier Nytko

08.07.2025 06:51

Tagi: Chatbot ChatGPT OpenAI Sztuczna inteligencja (AI)

Najnowsze

16:20

Windows 11 wariuje po aktualizacji. Uważaj, potrafi zepsuć system

Aktualizacja: 2025-11-13T16:20:22+01:00