REKLAMA

Odkryli, że popularny czatbot ma własny kodeks moralny. Oto wartości, których broni

Twórcom czatbota Claude udało się ustalić, jak wygląda jego kodeks moralny. Badacze z Anthropic opracowali własną "taksonomię wartości AI".

Odkryli, że popularny czatbot ma własny kodeks moralny. Oto wartości, których broni
REKLAMA

Anthropic to założony w 2021 roku startup, którego założycielami byli dawni pracownicy OpenAI. Podobnie do firmy Sama Altmana, Anthropic rozwija komercyjne systemy generatywnej sztucznej inteligencji, z których zyski pozwolą startupowi na rozwój badań w kierunku "bezpieczeństwa i niezawodności systemów".

Maskotką Anthropic jest rodzina dużych modeli językowych sztucznej inteligencji, Claude, bezpośrednio konkurująca z m.in. GPT OpenAI czy Gemini Google'a. Claude, jak deklaruje sam startup, wyróżnia się posiadaniem "kodeksu moralnego".

Anthropic ma "taksonomię wartości AI". Klasyfikacja startupu umożliwia badaczom spojrzenie w głębie serca czatbotów

REKLAMA

Tak ma wynikać z najnowszej analizy, jakiej dokonali badacze pracujący dla startupu. Naukowcy pochylili się nad tym jak Claude przekazuje swoje "wartości" podczas rozmowy z użytkownikami. W tym celu przeanalizowali oni ponad 700 tys. zanonimizowanych (pozbawionych danych osobowych i szczegółów) rozmów, jakie użytkownicy przeprowadzili z konwersacyjną wersją Claude - czyli po prostu czatbotem.

Do tego celu badacze Anthropic stworzyli "nowatorską metodę ewaluacji", dzięki której mogli systemowo kategoryzować wartości Claude, jakie przejawiały się w wygenerowanych przez AI odpowiedziach do użytkowników. Po odfiltrowaniu obiektywnych treści (np. dotyczących faktów czy pytań ogólnych), badacze skategoryzowali ponad 308 tys. interakcji w pięciu kategoriach: praktyczne, epistemiczne, społeczne, ochronne i osobiste.

„Pierwsza empiryczna taksonomia wartości AI na dużą skalę” - jak nazwali badacze swoją klasyfikację - pozwoliła określić kodeks moralny Claude, który opiera się na wartościach takich jak "dostępność" (dla ludzi w różny sposób niepełnosprawnych), "tworzenie możliwości", "dobrostan", "bezpieczeństwo dzieci", "rzetelność historyczna" czy "skromność epistemiczna". Same treści generowane przez Claude kierowane są wartościami takimi jak bycie pomocnym, profesjonalnym, transparentnym czy skrupulatnym.

Claude ma być "nadmiernie uległy"

W badaniu pochylono się również nad sposobem, w jaki Claude reaguje na wartości wyrażane przez użytkowników. W 28,2 proc. przeanalizowanych rozmów Claude zdecydowanie wspierał wartości użytkowników - co według badaczy może świadczyć o "nadmiernej ustępliwości". Jednak w 6,6 proc. interakcji Claude miał "przeformułowywać" wartości użytkownika, uznając je i dodając nowe perspektywy, zazwyczaj podczas udzielania porad psychologicznych lub interpersonalnych.

W 3 proc. rozmów Claude aktywnie opierał się wartościom użytkownika. Naukowcy sugerują, że te rzadkie przypadki sprzeciwu mogą ujawniać "najgłębsze, najbardziej niewzruszone wartości" Claude'a - analogicznie do tego, jak ludzkie podstawowe wartości pojawiają się w obliczu wyzwań etycznych.

Nasze badania sugerują, że istnieją pewne rodzaje wartości, takie jak uczciwość intelektualna i zapobieganie szkodom, które Claude rzadko wyraża w zwykłych, codziennych interakcjach, ale jeśli jest naciskany, będzie ich bronił. W szczególności to właśnie tego rodzaju wartości etyczne i zorientowane na wiedzę są zwykle artykułowane i bronione bezpośrednio, gdy są naciskane

Według Anthropic "Empiryczna taksonomia wartości AI na dużą skalę" może zostać zastosowana do opracowania kodeksu moralnego także innych modeli generatywnej AI. Jednak jej głównym ograniczeniem jest fakt, że może ona zostać zastosowana tylko wobec modelu, który już został wdrożony i wygenerował dużą ilość danych konwersacyjnych możliwych do przeanalizowania. Wobec czego taksonomia stanowi jedynie narzędzie monitorowania tego czy model swoim zachowaniem nie odbiega od pożądanych lub wcześniej zdefiniowanych wartości.

Modele sztucznej inteligencji nieuchronnie będą musiały dokonywać oceny wartości. Jeśli chcemy, aby te oceny były zgodne z naszymi własnymi wartościami (co jest przecież głównym celem badań nad dostosowaniem AI), musimy mieć sposoby na sprawdzenie, jakie wartości model wyraża w prawdziwym świecie

Więcej na temat sztucznej inteligencji (AI):

REKLAMA
REKLAMA
Najnowsze
Aktualizacja: 2025-04-22T13:33:42+02:00
Aktualizacja: 2025-04-21T07:43:00+02:00
REKLAMA
REKLAMA
REKLAMA