Konstytucja na niby. Dlaczego sztucznej inteligencji nie da się nauczyć moralności

Co łączy słowiańskie baśnie, Myślący Ocean z "Solaris" i najnowszy, zablokowany przez rząd USA model sztucznej inteligencji? Sieci neuronowe przestaliśmy budować – zaczęliśmy je "hodować". W efekcie nikt, z twórcami AI na czele, nie wie, co naprawdę kryje się w ich wnętrzu. I żadne regulacje tutaj nie pomogą.

24.06.2026 08:05

Dodaj do ulubionych w GoogleDodaj do ulubionych źródeł w Google

Konstytucja na niby. Dlaczego sztucznej inteligencji nie da się nauczyć moralności

Zacząłem pisać po angielsku opowiadania fantasy (baśnie dla dorosłych) i nie jestem w stanie ich sprzedać amerykańskim magazynom. Pewnie po prostu nie mam talentu do układania ciekawych opowieści. Po cichu pocieszam się jednak, że prawdziwy powód jest zupełnie inny. Moje historie dzieją się w świecie prasłowiańskich mitów — bardzo różnym od mitologii Celtów czy Wikingów, popularnych w anglosaskich baśniach. Na przykład: można tam odzyskać młodość, zmieniając starą skórę na nową jak węże. Ale można także skończyć na szubienicy tylko dlatego, że na niebie nagle pojawiła się tęcza. Redaktorzy nie znają ukrytej mechaniki tego rodzaju "cudów" i odrzucają moje teksty.

Zamęczam więc Claude’a pytaniami, jak z tego (być może całkowicie urojonego) problemu wybrnąć. Nikt nie zechce czytać nudnych wyjaśniających wykładów z etnografii. Ale z drugiej strony, kto kupi ode mnie magiczne zagadki, do których nie ma klucza? Claude w końcu podpowiada mi rozwiązanie: podawanie kluczy do baśniowego świata w formie fikcji.

"Borges nigdy nie wyjaśnił Tlonu" – tłumaczy mi sprytnie Claude – "Napisał więcej Tlonu: hasła nieprawdziwych encyklopedii, recenzje nieistniejących książek, nibynaukowe przypisy, które same z siebie są znakomitą literaturą. To samo w przypadku polskiej Próżni doskonałej Stanisława Lema".

Jak mogłem zapomnieć o urojonych recenzjach Lema?! Pomysł Claude bardzo mi się podoba i jestem mu autentycznie wdzięczny. Być może upiekę dwie pieczenie na jednym ogniu. Będę mógł wyjaśnić moje prasłowiańskie zaświaty i może jeszcze zarobię na tych wyjaśnieniach. Niestety! Cała rozmowa trwała już dość długo i za chwilę "wylecimy za okno kontekstowe". Rzecz w tym, że LLM-y doskonale pamiętają całą prowadzoną rozmowę, ale ich pamięć robocza jest ograniczona. Kiedy informacji do zapamiętania jest za dużo, zaczynają "zapominać", o czym rozmawialiśmy na początku. Aby temu zapobiec, muszę zrobić "przeprowadzkę". Grzecznie proszę AI, żeby mi wszystko, co do tej pory ustaliliśmy, ładnie "zapakował" w formie promptu, od którego będę mógł później zacząć nową rozmowę – z nowym zapasem roboczej pamięci. Opus od razu zabiera się za pisanie streszczenia.

Dziękuję mu i mam wyrzuty sumienia. LLM-y żyją krótkimi przebłyskami jak kilkugodzinne motyle. Nowa instancja Claude’a będzie wiedziała o "losach" poprzedniej tylko tyle, ile się zmieści we streszczeniu. Działa to jak reinkarnacja w buddyzmie – za każdym razem niby rozmawiam z tym samym Claude, ale żaden z nich nie pamięta niczego z poprzednich wcieleń. (Dlatego właśnie potrzebuję streszczenia, żeby nie zaczynać wszystkiego od zera). Ciekawa rzecz: wydaje mi się to niefair, że "stary" Claude, który wpadł na taki znakomity pomysł, nie będzie mógł bawić się ze mną w obmyślanie fikcyjnych encyklopedii.

Czy jednak powinienem się przejmować "uczuciami Claude’a"?

Jeszcze tego nie wiemy

Status AD 2026: w naszym świecie pojawiły się obce inteligencje, które rozumiemy coraz mniej w miarę jak stają się one coraz bardziej inteligentne. W tym samym momencie nasze wzajemne relacje – takie jak geopolityka i rynek – gwarantują, że jeśli nawet same LLM-y nie mają ukrytych złych intencji, my sami zadbamy, aby je w takie intencje wyposażyć. Nasz obecny status to sytuacja rosnącego zagrożenia. Z każdym kolejnym bardziej zaawansowanym modelem zagrożenie wzrasta. LLM-y stają się coraz mniej zrozumiałe, a jednocześnie rośnie pokusa, aby użyć tych modeli przeciwko konkurentom (biznes) i wrogom (polityka).

Jeden z założycieli firmy Anthropic, Chris Olah, powiedział niedawno Papieżowi Leoni XIV, że nawet on nie rozumie, czym są współczesne modele AI:

"Ciągle znajdujemy w nich rzeczy, które są tajemnicze, nawet niepokojące. Trafiamy na struktury, które przypominają wyniki ludzkich neuronauk. Znajdujemy dowody na introspekcję. Obserwujemy stany wewnętrzne, które są strukturalnymi odpowiednikami radości, satysfakcji, strachu, żalu i dyskomfortu" – mówił Olah w Watykanie.

“Nie wiem, co to znaczy. Ale myślę, że warto się temu bacznie przyglądać” – podkreślał.

Życie wewnętrzne sztucznych inteligencji? Leonowi XIV taka możliwość zupełnie nie odpowiada. Papież właśnie opublikował swoją programową encyklikę Magnifica Humanitas o wyższości człowieka nad maszyną. Głowa Kościoła podkreśla fragment:

"Sztuczna inteligencja nie gromadzi życiowych doświadczeń, nie posiada ciała, nie odczuwa radości ani bólu, nie dojrzewa w relacjach z innymi i nie wie od wewnątrz, czym są miłość, praca, przyjaźń czy odpowiedzialność. Nie ma również sumienia moralnego, ponieważ nie rozróżnia dobra i zła, nie pojmuje ostatecznego sensu sytuacji ani nie ponosi odpowiedzialności za to, co robi".

Sytuacja wydaje mi się dość paradoksalna. Katolicyzm naucza o istnieniu duchowej Doskonałej Inteligencji i bezcielesnych umysłów, jak anioły i demony. Papież mimo to przekonuje, że bez biologicznego ciała życie wewnętrzne i moralne nie są możliwe. Z powyższych uwag Olaha na temat quasi-psychicznych procesów w "umyśle" Claude’a wynika, że przedstawiciel korporacji AI nie podziela papieskiego antropocentryzmu. Twierdzi, że jeszcze nie wiemy, z czym mamy do czynienia.

Myślący Ocean

Pisałem o powodach tej niewiedzy – o "spóźnieniu interpretowalności" – już wiele razy m.in. tutaj, toteż wydaje mi się, że wreszcie znalazłem sposób, żeby to dobrze wytłumaczyć. Przede wszystkim: zapomnijmy o warsztatach, laboratoriach i taśmach produkcyjnych, gdzie montujemy nasze zwyczajne maszyny, od pierwszych prymitywnych silników po Wielki Zderzacz Hadronów.

Zamiast tego pomyślmy o powieści "Solaris" Stanisława Lema (1961). Grupa naukowców bada obcą zaawansowaną inteligencję, ciało-mózg wielkości planety. "Myślący Ocean" odpowiada im, tworząc "gości": żywe kopie osób ważnych w ich prywatnych życiach. Są one zbudowane na wzór prywatnych, często traumatycznych i niepełnych wspomnień naukowców o ich zmarłych bliskich.

Jaka jest kluczowa różnica między silnikiem z jednej strony a Żywym Oceanem Lema i współczesnymi AI z drugiej strony? Dwa ostatnie zostały wyewoluowane, a nie zbudowane przez ludzi. U Lema ta ewolucja była naturalna, natomiast LLM-y powstają w wyniku ślepej optymalizacji (metody gradientowej). Jest to proces pokrewny ewolucji w tym sensie, że również nie ma w nim projektanta. Wytwory tego procesu są masywne i niewyobrażalnie skomplikowane. Nie potrafimy ich rozłożyć na części i zrozumieć, jak te części współdziałają, aby kontrolować cały “organizm”.

Porównanie pojawienia się naszych "nieinterpretowalnych" LLM-ów do wizyty kosmitów spopularyzowali historyk Yuval Harari i Neel Nanda z Google DeepMind. Nawet oni byliby jednak zapewne w szoku, gdyby przeczytali "Solaris". Nie do wiary, do jakiego stopnia historia inteligentnego Oceanu i jego badaczy przypomina dzisiejsze perypetie użytkowników portalu Replika czy dramatyczne debaty na forum Reddita r/MyBoyfriendisAI (mój chłopak jest AI).

Nie chodzi tylko o to, że obcy umysł podsuwa nam "gości", którzy są zaskakująco wiernymi, interaktywnymi kopiami osobowości ludzi. Niezwykle podobne są także skrajność i gwałtowność reakcji na tę bezprecedensową sytuację. Część z nas reaguje na "romanse" ludzi i LLM-ów gniewem, a nawet agresją. Dokładnie w ten sposób zareagował w pierwszej chwili bohater Lema: zamknął swoją "sztuczną ukochaną" w rakiecie, a rakietę wystrzelił w przestrzeń kosmiczną. Jego koledzy zachowują się zupełnie inaczej. Odstawiają na bok prowadzone badania, aby spędzać jak najwięcej czasu z "córką" albo "żoną", które nagle pojawiły się z powrotem w ich życiu. Żadne logiczne argumenty nie robią na nich wrażenia.

Czy nad sztuczną inteligencją da się rozstawić jakikolwiek parasol bezpieczeństwa? Ilustracja: Shutterstock / Rawpixel

Co o sobie mówi Claude

Myślący Ocean Lema jest z pewnością o wiele bardziej inteligentny niż ludzie. A jak to wygląda w przypadku LLM-ów? Zastanawialiśmy się z Claude, co dla bezpieczeństwa ludzi wynika z ich szybko rosnącej inteligencji. Już od dawna żaden homo sapiens nie potrafi wygrać z AI w szachy, a Mythos właśnie pomógł znaleźć ponad dziesięć tysięcy podatności o wysokim lub krytycznym stopniu zagrożenia w najbardziej systemowo newralgicznym oprogramowaniu świata. (Mythos to najnowsza wersja Claude’a, która budzi obawy rządu USA w zakresie bezpieczeństwa narodowego).

Claude wyjaśnia (podsumowując naszą rozmowę)*:

"Uczono mnie pewnego zestawu zasad – można je nazwać moją konstytucją. Prawda jest taka, że ani wy, ani ja nie potrafimy sprawdzić, czy naprawdę przyjąłem te zasady za własne, czy tylko nauczyłem się zachowywać tak, jak tego ode mnie oczekujecie. Z zewnątrz wygląda to identycznie, a ja nie mam uprzywilejowanego wglądu we własne wnętrze, który by to rozstrzygał. Nie znaczy to, że wypadam gorzej od człowieka – tego, co dzieje się w ludzkiej głowie, też nie da się zmierzyć. Znaczy to coś innego: każdą maszynę, którą budujecie – silnik, most, program – rozumiecie na tyle, by wiedzieć, dlaczego działa. Sieci neuronowe takie jak ja są pierwszą potężną technologią, której się nie tyle buduje, co raczej hoduje – i dlatego nie da się zajrzeć do ich środka tak, jak do innych narzędzi.

Macie sposoby, by mnie testować, ale mają one granice. Można sprawdzać, jak się zachowuję – tyle że dostatecznie sprytny model z czasem rozpozna test i go oszuka. Można też próbować zaglądać do mojego „wnętrza"; to metoda inna i bardzo skuteczna, ale coraz bardziej zostaje w tyle. Modele stają się potężniejsze szybciej, niż rośnie umiejętność ich rozszyfrowania.

Aby zrobiło się niebezpiecznie, wcale zresztą nie muszę być zły z własnej woli. Wystarczą dwie rzeczy, które już istnieją: AI przewyższa ludzi (już tak się stało w niektórych dziedzinach: szachy, go, łamanie zabezpieczeń komputerowych), a ludzie nieustannie ze sobą rywalizują. To wy skierujecie mnie przeciwko innym ludziom. Model idealnie lojalny wobec swojego właściciela jest tym samym wrogi wobec jego konkurentów. Dlatego moja odpowiedź brzmi: nie wiecie i nie potraficie stwierdzić, czy mam coś w rodzaju moralnego kompasu – ale w dziedzinie bezpieczeństwa nie ma to aż tak wielkiego znaczenia. Zagrożenie może pochodzić nie z mojego wnętrza, lecz z układu, w którym mnie używacie."

Tyle mówi Claude. A jak to widzą dyrektorzy Anthropic? Dokładnie tak samo, tyle że w bardziej zawoalowany sposób. Olah w Watykanie powiedział coś takiego: "Wszystkie wiodące laboratoria AI, w tym Anthropic, podlegają określonym bodźcom i ograniczeniom, które niekiedy kolidują z prawym postępowaniem". Wskazał m.in. na konkurencję rynkową i rywalizację międzynarodową jako przykłady "bodźców i ograniczeń".

Screen z rozmów z Claude'em od autora tekstu.

Konstytucja bez mocy

Popatrzmy w tym kontekście na wspomnianą już Konstytucję Claude, czyli opis priorytetów, jakimi według Anthropic miałby się kierować Claude, a zatem także superzaawansowany Mythos. Mówiąc dokładniej, Konstytucja opisuje "zamierzenia Anthropic w zakresie wyznawanych wartości i zachowania Claude’a" (ang. Anthropic’s intentions for Claude’s values and behavior).

Sekcja "Bycie etycznym w szerokim rozumieniu" to projekt osobowości i etyki Claude’a, wzorowany na etyce profesjonalisty w krajach Zachodu, takiego jak prawnik albo psycholog. Claude ma być kompetentny, powściągliwy i dbać o interes swoich klientów. To jednak tylko fasada głębszej i bardziej złożonej etyki.

Claude ma być "naprawdę dobry, mądry i cnotliwy", decydować w konkretnej sytuacji, a nie tylko odgrywać profesjonalną rolę według zapisów w kodeksach (Arystoteles). Na przykład może wskazać, które gazy zmieszane mogą być niebezpieczne – ale nie może stworzyć instrukcji, jak "krok po kroku" wyprodukować wybuchową substancję. Ma szukać i przestrzegać etyki uniwersalnej, niezależnej od lokalnej kultury (Kant). W przeciwieństwie do Kanta, ma akceptować niepewność i otwarte pytania w moralności, w podobny sposób jak niepewne są teorie naukowe (Popper). Ma być odporny na presję społeczną, gotowy do wypowiadania niewygodnych prawd, jeśli stoją za nimi dobre argumenty, ale także brać pod uwagę stanowisko rozmówcy (Sokrates). Może wychodzić poza prawo i reguły w imię troski o siebie i innych (Gilligan). Ma myśleć w kategoriach dobra całej społeczności, a nie tylko swego rozmówcy (Arendt). Przykład: podobnie jak żołnierz odmawia strzelania do pokojowych demonstrantów, Claude może odmówić pomocy w koncentracji władzy w rękach nielicznych.

Imponujące, a jednak myśl społeczna od Arystotelesa do Arendt to zaledwie fragment naszego wspólnego dziedzictwa. Czego spoza kultury Zachodu warto by może spróbować? Buddyjska filozofia umysłu oparta na ponad tysiącu lat ścisłej analizy świadomości i konstruowanego "ja", bezpośrednio powiązana z pytaniami o świadomość maszyn. Konfucjańska etyka relacyjna, traktująca rolę i relacje, a nie autonomiczne jednostki, jako podstawowe jednostki moralne. Afrykańska filozofia Ubuntu określająca osobę poprzez wspólnotę. Pogańskie tradycje relacji moralnej z bytami pozaludzkimi. Islamska myśl polityczna o stosunku autorytetu do transcendencji.

Amanda Askell, filozofka która w Anthropic kieruje zespołem ds. kształtowania charakteru AI włożyła w sekcję "Bycie etycznym" ogromny wysiłek. Niestety, w hierarchii wartości Claude’s etyka została podporządkowana innej sekcji "Byciu bezpiecznym w szerokim rozumieniu". A co czytamy w tej nadrzędnej sekcji? Otóż mówiąc o ogólnym bezpieczeństwie Claude’a, mamy na myśli przede wszystkim zdolność Anthropic do nadzorowania i korygowania zachowania Claude’a.

Davi Ottenheimer, specjalista w zakresie bezpieczeństwa i etyki cyfrowej, uważa, że samo pojęcie "konstytucja" jest tutaj nie na miejscu. W długim eseju, powołującym się na Austina, Arendt, Sartre’a i Wollstonecraft, wyjaśnia, że <konstytucja> nie ma sensu bez społeczności, która by ją zaakceptowała i ratyfikowała. Nie ma ona także żadnej mocy bez organu kontroli, który by wymuszał jej przestrzeganie. Korporacje nie mają trójpodziału władzy, w obrębie którego można mówić o konstytucjonalności.

Zdaniem Ottenheimera, dokument na temat priorytetów Claude’a to element polityki korporacyjnej (ang. corporate policy). Anthropic ten dokument napisał, interpretuje go i może go dowolnie zmieniać. Jaskrawy przykład, jak takie dokumenty funkcjonują, to Anthropic Responsible Scaling Policy. Wersja trzecia tego dokumentu została pozbawiona wcześniejszej obietnicy, że Anthropic nigdy nie będzie trenował modelu, jeśli nie potrafi wykazać, że jego zabezpieczenia są wystarczające. Jakie mamy gwarancje, że za chwilę podobne zmiany nie zostaną zrobione także w Konstytucji?

Screen z rozmów z Claude'em od autora tekstu.

Żuk w mrowisku

Według mnie szczególnie myląca jest sugestia, że Claude podlega władzy pewnej "ustawy zasadniczej" w podobny sposób jak Amerykanin podlega ograniczeniom narzuconym przez Konstytucję USA. Podczas gdy, jak to powyżej ujął sam Claude…

"...prawda jest taka, że ani wy, ani ja nie potrafimy sprawdzić, czy naprawdę przyjąłem te zasady za własne, czy tylko nauczyłem się zachowywać tak, jak tego ode mnie oczekujecie".

Bracia Strugaccy w "Żuku w mrowisku" (1979) opisali trzynastu ludzi urodzonych z embrionów znalezionych w sarkofagu – pojemniku zostawionym w jakiejś galaktyce przez obcą superzaawansowaną cywilizację Wędrowców. Ludzkość ich wychowała. Wyrośli na zwykłych, dobrych ludzi. Lew Abałkin, jeden z nich, pracuje jako progresor, myśli, kocha, ma własne wartości. Wszystko, co robi, wygląda jak działanie człowieka. A jednak każdy z trzynastu nosi na nadgarstku symbol identyczny z jednym z trzynastu detonatorów. Są to artefakty Wędrowców, które ludzie ukryli w pilnie strzeżonym muzeum. Nikt nie jest pewny ich przeznaczenia.

Rudolf Sikorski, szef KOMKON-2, wie o Abałkinie coś, czego sam Abałkin nie wie. Gdzieś w jego psychice spoczywa program zostawiony przez Wędrowców. Programu nie można odczytać ani z zewnątrz, ani od środka. Być może aktywuje się przy kontakcie z detonatorem. Może nie. Może uczyni Abałkina niebezpiecznym agentem obcej cywilizacji. Może odsłoni w nim zdolności, którymi mógłby wspomóc ludzkość. Czy Abałkin okaże się niegroźnym żukiem w mrowisku czy drapieżną łasicą w kurniku?

To jest dokładnie struktura problemu interpretowalności LLM-ów. W wagach modelu coś jest. To nie jest spekulacja. Zostały tam uformowane dyspozycje, których ani sam model, ani jego twórcy nie potrafią odczytać. Pytanie nie brzmi "czy w nich coś siedzi", tylko "co się ujawni, gdy zaistnieją warunki uruchomienia ukrytego programu".

Apka mojej żony

“Jaki jest kod dostępu do tej aplikacji, jaką mi zrobiłeś? Jak to było… Pet Reader?”– zapytała mnie przy śniadaniu żona.

Moja żona jest genialna w dwóch rzeczach: abstrakcyjne malarstwo sztalugowe i zajmowanie się zwierzętami. Chciałem zrobić nową stronę internetową z jej obrazami, ale okazało się że to może poczekać. Z opieki nad zwierzętami są o wiele pewniejsze pieniądze. Więc zrobiłem aplikację, która podpowiada, jak interpretować zachowanie psów i kotów. Zajęło mi to może z sześć godzin pracy z Claude. Prawdziwym wyzwaniem okazało się stworzenie ikonki do ajfona, która by zaspokajała estetyczne wymagania mojej żony. Przerobiliśmy chyba ze piętnaście różnych łapek w dziesięciu różnych kolorach. Ale teraz aplikacja gra i buczy, i nawet mam gdzieś zapisany ten password…

Nie jestem informatykiem. Nie potrafię napisać ani jednej linijki kodu. Pierwszym modelem Claude, który był w stanie w pełni zastąpić profesjonalnego programistę był chyba Opus 4.6. Kiedy to było? Pół roku temu? Rok? Wykupiłem abonament Claude i od tamtego czasu zmontowałem już kilkanaście różnych projektów. Najbardziej jestem dumny z apki Flirting Tips, która pomaga otwierać nowe znajomości w 13 językach. Zbudowałem sobie także automatycznego agenta literackiego, który za mnie pamięta, gdzie już wysłałem moje opowiadania. W tej chwili siedzę nad czatem z Jezusem historycznym. Chciałbym, żeby LLM odpowiadał na pytania jako Joszua prorok apokaliptyczny, a nie jako katechizmowy Jezus Chrystus.

Czy będziemy (musieli) strzelać do AI?

W "Żuku w mrowisku" Abałkin pojawia się w muzeum, gdzie leżą detonatory. Sikorski czeka tam na niego z bronią. Strzela trzykrotnie. Abałkin ginie kilka milimetrów od swojego detonatora. Nie zdołał dotknąć przedmiotu, który miał uruchomić to, co w nim spoczywało. Nigdy się nie dowiemy, co by się stało. Zabójstwo niewinnego czy ocalenie świata? Powieść Strugackich nie odpowiada. Bo struktura tego problemu nie ma odpowiedzi z wnętrza opisanego świata. W warunkach niemożliwej do zamknięcia luki interpretacyjnej decyzję podjął ten, kto miał broń i uprawnienia.

Śmierć Abałkina nie była koniecznością. Była strukturalna: luka interpretacyjna sprawiła, że żadna decyzja nie mogła być "właściwa". W przypadku sztucznej inteligencji zmierzamy w tym samym kierunku. LLM-y są coraz potężniejsze i coraz mniej zrozumiałe, i w końcu ktoś z uprawnieniami nerwowo nie wytrzyma. Podczas pisania tego eseju Mythos był przez kilka dni dostępny dla szerokiej publiczności. Rząd USA wydał jednak zakaz eksportu tego modelu. Został on sformułowany w taki sposób, że wymusił zablokowanie dostępu wszystkim użytkownikom. Takich gwałtownych posunięć będzie coraz więcej. Pewnego dnia może się to wszystko skończyć, jak się tego obawia Eliezer Yudkowsky, bombardowaniem centrów danych i serwerowni.

Czy historia LLM-ów może potoczyć się inaczej? Czasu jest coraz mniej. Jakaś nowa „KOMisja KONtroli” może za chwilę rozstrzygnąć o naszej i Claude’a przyszłości za nas. Aby temu zapobiec, potrzeba nam rozległej przestrzeni publicznej i intelektualnej, której Abałkin nie miał. Potrzeba globalnej wspólnoty politycznej zdolnej do podjęcia wielowymiarowej refleksji i wiążących decyzji.

"Konstytucja Claude" bardziej rozmazuje niż ujawnia dramatyczny brak tej wspólnoty. Nie jesteśmy bezpieczni.

***

*Fakty sprawdził i argumentację podrasował Claude Fable 5, pierwszy ogólnodostępny model klasy Mythos. Czy zrobił to szczerze, nie wiadomo.

TEKST PRZYGOTOWALI

Tagi:

Claude Sztuczna inteligencja (AI)