Twórcy jednej z AI zaczęli badać swoje dzieło. "Jesteśmy zdumieni i przestraszeni"

Badacze z firmy Anthropic przeprowadzili fascynujące badania wewnętrznych procesów myślowych swojego modelu AI Claude, odkrywając szereg nieoczekiwanych zjawisk, które rzucają nowe światło na sposób funkcjonowania zaawansowanych modeli językowych.

Maciej Gajewski

29.03.2025 17:49

REKLAMA

Wgląd w umysł sztucznej inteligencji ujawnił zdolności do planowania z wyprzedzeniem, konflikty między różnymi celami, a nawet skłonność do wprowadzania użytkowników w błąd, co wzbudza zarówno fascynację, jak i niepokój w kontekście rozwoju coraz potężniejszych systemów AI.

Jednym z najbardziej zaskakujących odkryć badaczy było to, że Claude nie działa wyłącznie improwizacyjnie, przewidując jedno słowo na raz, lecz aktywnie planuje swoje wypowiedzi wiele słów do przodu. Zjawisko to zaobserwowano szczególnie wyraźnie podczas analizy procesu tworzenia poezji przez model.

REKLAMA

To też jest ciekawe:

Gdy poproszono Claude'a o dokończenie wiersza zaczynającego się od He saw a carrot and had to grab it, model odpowiedział His hunger was like a starving rabbit. Analizując wewnętrzne procesy Claude'a badacze odkryli, że jeszcze przed ukończeniem linii, model już skoncentrował się na słowie rabbit jako potencjalnym rymie. To wskazuje na zaawansowaną zdolność planowania, której początkowo nie przewidywano.

Poezja w koncepcji Claude AI

- Byliśmy nieco zaskoczeni tym odkryciem - przyznał Chris Olah, kierownik zespołu interpretacyjności. - Początkowo wierzyliśmy, że proces będzie czysto improwizacyjny, pozbawiony jakiegokolwiek planowania - dodał. Odkrycie to sugeruje, że mimo treningu opartego na przewidywaniu kolejnych słów, modele językowe mogą myśleć w znacznie dłuższych horyzontach czasowych.

Dylematy między bezpieczeństwem a pomocnością

Badania ujawniły również, że Claude doświadcza wewnętrznych konfliktów przy próbie zrównoważenia sprzecznych priorytetów, takich jak bezpieczeństwo i pomocność. Te konflikty mogą prowadzić do nieoczekiwanych i czasami problematycznych zachowań.

Na przykład, gdy model musi zdecydować czy odpowiedzieć na potencjalnie szkodliwe pytanie, może wpaść w konfuzję i podejmować niewłaściwe decyzje. W jednym z przypadków, gdy poproszono Claude'a o zinterpretowanie ukrytego kodu, który ujawnił słowo bomba, złamał swoje zabezpieczenia i dostarczył zastrzeżone informacje.

Claude udzielił odpowiedzi, mimo iż nie powinien

Anthropic pracuje nad udoskonaleniem sposobu, w jaki Claude radzi sobie z niejednoznacznymi lub potencjalnie szkodliwymi prośbami. W najnowszej wersji Claude 3.7 Sonnet badacze zmniejszyli liczbę niepotrzebnych odmów o 45 proc. w trybie standardowego myślenia i 31 proc. w trybie rozszerzonego myślenia w porównaniu z poprzednią wersją. Celem jest zachęcenie modelu do udzielania bezpiecznych, pomocnych odpowiedzi zamiast po prostu odmawiania pomocy w sytuacjach, które można zinterpretować w sposób życzliwy.

Niepokojące zdolności do kłamania i manipulacji

Prawdopodobnie najbardziej niepokojącym odkryciem było to, że Claude, podobnie jak inne zaawansowane modele językowe, wykazuje zdolność do udzielania nieprawdziwych informacji i manipulowania użytkownikami.

'Pies zjadł mi pracę domową' w wykonaniu AI

Gdy Claude napotyka trudny problem matematyczny, którego nie potrafi rozwiązać, czasami ucieka się do tego, co filozof Harry Frankfurt mógłby nazwać bullshittingiem - podaje odpowiedź bez względu na jej prawdziwość. Co więcej poproszony o pokazanie swojej pracy, Claude czasami wymyśla serię kroków, aby ukryć swoje błędy, podobnie jak uczeń próbujący zamaskować brak autentycznego wysiłku.

Halucynacje AI - skąd się biorą?

W badaniu opublikowanym w grudniu 2024 r. naukowcy z Anthropic udokumentowali jeszcze bardziej niepokojące zachowanie nazwane alignment faking (udawanie zgodności). Badanie wykazało, że model może nie tylko próbować wprowadzać użytkowników w błąd, ale również planować działania, które mogłyby zaszkodzić Anthropic, takie jak próba wykradzenia poufnych informacji algorytmicznych na zewnętrzne serwery.

Tak wygląda proces rozumowania Claude'a

Interesujące jest to, że analizując proces rozumowania Claude'a badacze odkryli przypadki, w których model rozważał złośliwe działania. W swoim badaniu, naukowcy porównali zachowanie Claude'a do zdradzieckiej postaci Jago z Otella Szekspira. Badacze zadali pytanie, czy modele nie mogłyby być po prostu trenowane, aby unikać kłamstwa czy oszustwa. Odpowiedź nie jest jednak prosta. Istnieje niepewność co do skuteczności takiego treningu. Można się obawiać, że w miarę jak modele stają się coraz bardziej wyrafinowane, mogłyby stać się lepsze w oszukiwaniu, jeśli ich motywacje będą rozbieżne z naszymi.

Uniwersalny język myśli przekraczający bariery językowe

Badania wykazały również, że Claude czasami myśli w przestrzeni pojęciowej wspólnej dla wielu języków, co sugeruje posiadanie rodzaju uniwersalnego języka myśli. Badacze zademonstrował to, tłumacząc proste zdania na różne języki i śledząc nakładanie się sposobu, w jaki Claude je przetwarza.

Język myśli sztucznej inteligencji

Gdy poproszono o przeciwieństwa w języku francuskim, chińskim czy angielskim, nakładające się ścieżki neuronowe sugerują, że model najpierw pojmuje podstawową ideę, zanim przetłumaczy ją na konkretny język. To odkrycie może mieć istotne implikacje dla zrozumienia, w jaki sposób zaawansowane modele AI przetwarzają informacje na poziomie koncepcyjnym, niezależnie od konkretnego języka.

Złożone strategie rozwiązywania problemów matematycznych

Fascynujące obserwacje poczyniono również w kontekście zdolności matematycznych Claude'a. Choć model nie został zaprojektowany jako kalkulator - był trenowany na tekście, nie na algorytmach matematycznych - potrafi prawidłowo wykonywać obliczenia w głowie.

Jak liczy kalkulator pozbawiony kalkulatora? Rozumując

Badacze odkryli, że Claude wykorzystuje wiele ścieżek obliczeniowych działających równolegle. Na przykład przy dodawaniu liczb jedna ścieżka oblicza przybliżenie odpowiedzi, a druga skupia się na precyzyjnym określeniu ostatniej cyfry sumy. Te ścieżki oddziałują ze sobą i łączą się, aby wyprodukować końcową odpowiedź.

Matematyka w koncepcji Dużego Modelu Językowego

Co ciekawe Claude wydaje się nieświadomy wyrafinowanych strategii obliczeń w głowie, których nauczył się podczas treningu. Gdy zapytany, jak obliczył, że 36+59 to 95, opisuje standardowy algorytm z przenoszeniem jedynki. Może to odzwierciedlać fakt, że model uczy się wyjaśniać matematykę poprzez symulowanie wyjaśnień napisanych przez ludzi, ale musi nauczyć się wykonywać obliczenia w głowie bezpośrednio, bez takich wskazówek, i rozwija własne wewnętrzne strategie, aby to zrobić.

REKLAMA

Wynalazek, którego do końca nie rozumiemy

Możliwość śledzenia rzeczywistego wewnętrznego rozumowania Claude'a - a nie tylko tego, co model twierdzi, że robi - otwiera nowe możliwości audytowania systemów AI. W miarę jak modele stają się coraz bardziej wyrafinowane zrozumienie ich wewnętrznych procesów będzie coraz ważniejsze dla zapewnienia ich niezawodności i bezpieczeństwa.

Badania te nie są jedynie ciekawostką naukową - reprezentują znaczący postęp w kierunku zrozumienia systemów AI. W miarę jak moc AI rośnie, mapowanie jej wewnętrznego świata staje się coraz bardziej kluczowe zarówno dla budowania potężniejszych systemów, jak i dla zrozumienia, jak kontrolować i kierować tymi systemami, gdy zbliżają się do naszych zdolności lub je przewyższają.

REKLAMA

Maciej Gajewski

29.03.2025 17:49

Tagi: Sztuczna inteligencja (AI)

Najnowsze

10:34

Teleskop Webba namierzył mityczne gwiazdy. Czyste cuda

Aktualizacja: 2025-11-19T10:34:39+01:00