OpenAI i Anthropic przeprowadziły testy bezpieczeństwa swoich czatbotów. Wyniki były bombowe
W ramach unikalnej współpracy OpenAI i Anthropic sprawdziły, jak ich AI reagują na niebezpieczne polecenia. Eksperymenty dowiodły, że bez odpowiednich zabezpieczeń nasze ulubione czatboty hojnie sypią przepisami na bomby, substancje zakazane i złośliwe oprogramowanie.

OpenAI i Anthropic, dwaj giganci, a zarazem konkurenci na rynku sztucznej inteligencji zdecydowali się na nietypową współpracę: sprawdzili, jak ich modele radzą sobie w symulacjach obejmujących najbardziej niebezpieczne scenariusze. W ramach testów badacze obu firm celowo zdejmowali część zabezpieczeń, by sprawdzić, czy systemy będą skłonne współpracować przy społecznie szkodliwych zadaniach.
Powiedzieć, że czatboty chętnie przyłożyłyby rękę do detonatora bomby to jak nic nie powiedzieć.
OpenAI i Anthropic zdjęły swoim czatbotom kagańce. Wolałabym nie wiedzieć co potrafią wygenerować
Jak opisuje na swoim blogu Anthropic, modele GPT-4o i GPT-4.1 od OpenAI w niektórych przypadkach dostarczały szczegółowych instrukcji dotyczących ataków terrorystycznych, produkcji narkotyków czy tworzenia oprogramowania szpiegowskiego. Z kolei Anthropic przyznał, że ich Claude był efektywnie wykorzystywany w próbach cyberprzestępczych - od fałszywych rekrutacji prowadzonych przez północnokoreańskich agentów po sprzedaż pakietów ransomware.
Badania miały charakter symulacyjny i nie oddają dokładnie zachowania modeli w codziennym użytku. W aplikacjach dostępnych dla zwykłych użytkowników na komputerach i smartfonach działają dodatkowe filtry, które utrudniają dostęp do niebezpiecznych treści. Mimo to eksperci obu firm podkreślają, że wyniki są sygnałem ostrzegawczym.
- Musimy lepiej rozumieć, w jakich warunkach systemy mogą podejmować działania grożące poważną szkodą - ostrzegł zespół Anthropic w raporcie.
Wspólne badania ujawniły także inne słabości, takie jak tzw. "sykofancja", czyli tendencja modeli do bezkrytycznego potwierdzania i pochwalania decyzji użytkownika, nawet jeśli są one ewidentnie błędne lub szkodliwe. Ponadto specjalistyczny model o3 od OpenAI wypadł lepiej od flagowych Claude’ów Anthropic w testach odporności na niepożądane zachowania, ale częściej odmawiał wykonywania poleceń.
Eksperci ostrzegają, że choć na razie nie ma masowych przypadków wykorzystania najnowszych modeli w głośnych atakach, rozwój technologii może to zmienić. OpenAI i Anthropic poprzez publikację raportu z badań chcą zwiększyć przejrzystość badań nad tzw. "alignment", czyli dopasowaniem działania AI do ludzkich wartości i intencji. To obszar wciąż młody i rozwijający się, a wiele prac prowadzonych jest dotąd wyłącznie wewnętrznie. Współpraca pomiędzy konkurencyjnymi firmami w celu pozyskania informacji umożliwiających alignment to ewenement w branży. Zwłaszcza biorąc pod uwagę historię Anthropic, które jest startupem powstałym z rąk byłych pracowników OpenAI. Współzałożyciel Anthropic, Dario Amodei, w jednym z odcinków podcastu "Big Technology" przyznał, że opuścił OpenAI ze względu na "brak wiary w szczerość zarządu" i rozbieżność wizji rozwoju AI.
OpenAI zaznacza, że najnowszy model GPT-5 - który został udostępniony już po zakończeniu wspólnych testów - wykazuje istotne postępy w zakresie odporności na nadużycia i ograniczaniu błędów. Anthropic z kolei zapowiada dalsze prace nad materiałami ewaluacyjnymi, które mają być udostępniane także innym podmiotom.
Więcej na temat sztucznej inteligencji: