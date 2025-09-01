/
REKLAMA
  1. SPIDER'S WEB
  2. Technologie
  3. Oprogramowanie

OpenAI i Anthropic przeprowadziły testy bezpieczeństwa swoich czatbotów. Wyniki były bombowe

W ramach unikalnej współpracy OpenAI i Anthropic sprawdziły, jak ich AI reagują na niebezpieczne polecenia. Eksperymenty dowiodły, że bez odpowiednich zabezpieczeń nasze ulubione czatboty hojnie sypią przepisami na bomby, substancje zakazane i złośliwe oprogramowanie.

Malwina Kuśmierek
OpenAI i Anthropic przeprowadziły wspólne testy swoich czatbotów
REKLAMA

OpenAI i Anthropic, dwaj giganci, a zarazem konkurenci na rynku sztucznej inteligencji zdecydowali się na nietypową współpracę: sprawdzili, jak ich modele radzą sobie w symulacjach obejmujących najbardziej niebezpieczne scenariusze. W ramach testów badacze obu firm celowo zdejmowali część zabezpieczeń, by sprawdzić, czy systemy będą skłonne współpracować przy społecznie szkodliwych zadaniach.

Powiedzieć, że czatboty chętnie przyłożyłyby rękę do detonatora bomby to jak nic nie powiedzieć.

REKLAMA

OpenAI i Anthropic zdjęły swoim czatbotom kagańce. Wolałabym nie wiedzieć co potrafią wygenerować

Jak opisuje na swoim blogu Anthropic, modele GPT-4o i GPT-4.1 od OpenAI w niektórych przypadkach dostarczały szczegółowych instrukcji dotyczących ataków terrorystycznych, produkcji narkotyków czy tworzenia oprogramowania szpiegowskiego. Z kolei Anthropic przyznał, że ich Claude był efektywnie wykorzystywany w próbach cyberprzestępczych - od fałszywych rekrutacji prowadzonych przez północnokoreańskich agentów po sprzedaż pakietów ransomware.

Badania miały charakter symulacyjny i nie oddają dokładnie zachowania modeli w codziennym użytku. W aplikacjach dostępnych dla zwykłych użytkowników na komputerach i smartfonach działają dodatkowe filtry, które utrudniają dostęp do niebezpiecznych treści. Mimo to eksperci obu firm podkreślają, że wyniki są sygnałem ostrzegawczym.

- Musimy lepiej rozumieć, w jakich warunkach systemy mogą podejmować działania grożące poważną szkodą - ostrzegł zespół Anthropic w raporcie.

Wspólne badania ujawniły także inne słabości, takie jak tzw. "sykofancja", czyli tendencja modeli do bezkrytycznego potwierdzania i pochwalania decyzji użytkownika, nawet jeśli są one ewidentnie błędne lub szkodliwe. Ponadto specjalistyczny model o3 od OpenAI wypadł lepiej od flagowych Claude’ów Anthropic w testach odporności na niepożądane zachowania, ale częściej odmawiał wykonywania poleceń.

Eksperci ostrzegają, że choć na razie nie ma masowych przypadków wykorzystania najnowszych modeli w głośnych atakach, rozwój technologii może to zmienić. OpenAI i Anthropic poprzez publikację raportu z badań chcą zwiększyć przejrzystość badań nad tzw. "alignment", czyli dopasowaniem działania AI do ludzkich wartości i intencji. To obszar wciąż młody i rozwijający się, a wiele prac prowadzonych jest dotąd wyłącznie wewnętrznie. Współpraca pomiędzy konkurencyjnymi firmami w celu pozyskania informacji umożliwiających alignment to ewenement w branży. Zwłaszcza biorąc pod uwagę historię Anthropic, które jest startupem powstałym z rąk byłych pracowników OpenAI. Współzałożyciel Anthropic, Dario Amodei, w jednym z odcinków podcastu "Big Technology" przyznał, że opuścił OpenAI ze względu na "brak wiary w szczerość zarządu" i rozbieżność wizji rozwoju AI.

OpenAI zaznacza, że najnowszy model GPT-5 - który został udostępniony już po zakończeniu wspólnych testów - wykazuje istotne postępy w zakresie odporności na nadużycia i ograniczaniu błędów. Anthropic z kolei zapowiada dalsze prace nad materiałami ewaluacyjnymi, które mają być udostępniane także innym podmiotom.

REKLAMA

Więcej na temat sztucznej inteligencji:

REKLAMA
Malwina Kuśmierek
01.09.2025 15:59
Tagi: ChatbotChatGPTOpenAISztuczna inteligencja (AI)
Najnowsze
15:36
Wojsko wyjechało na ulice. Jest ważny apel
Aktualizacja: 2025-09-01T15:36:59+02:00
14:46
Samolot z szefową Europy musiał lądować awaryjnie. Rosja znowu miesza w GPS
Aktualizacja: 2025-09-01T14:46:07+02:00
14:34
Apple umieszcza cztery urządzenia na czarnej liście. Już ich nie naprawisz
Aktualizacja: 2025-09-01T14:34:39+02:00
14:04
Niedługo paczkomaty na baterie. Tak, InPost jest już gotowy
Aktualizacja: 2025-09-01T14:04:25+02:00
13:25
System kaucyjny startuje, ale nie wszyscy gotowi. Co sklep, to inna strategia
Aktualizacja: 2025-09-01T13:25:28+02:00
12:14
Dziś wieczorem szukaj zorzy nad Polską. Czeka nas prawdziwe widowisko
Aktualizacja: 2025-09-01T12:14:41+02:00
11:48
Wielkie ucho, mapa życia i mundury z czujnikami. Oto nowości dla polskiego wojska
Aktualizacja: 2025-09-01T11:48:37+02:00
11:24
Ta wyspa zarabia fortunę na dwóch literkach. Lepszy biznes niż turystyka
Aktualizacja: 2025-09-01T11:24:51+02:00
10:01
Huawei Watch D2 doczekał się nowej wersji i nauczył nowej sztuczki, ale nie musisz go wymieniać
Aktualizacja: 2025-09-01T10:01:32+02:00
9:20
Śmiałeś się z tych lekcji na informatyce. Teraz to przepustka do Doliny Krzemowej
Aktualizacja: 2025-09-01T09:20:31+02:00
8:52
iPhone'y w Polsce przejmują amerykański standard. Problem w tym, że nie wszyscy są gotowi
Aktualizacja: 2025-09-01T08:52:09+02:00
7:42
Myślałem, że Wars jest tani. A potem wsiadłem do Leo Express
Aktualizacja: 2025-09-01T07:42:32+02:00
6:40
Nie tylko iPhone 17. Co jeszcze Apple pokaże we wrześniu?
Aktualizacja: 2025-09-01T06:40:00+02:00
6:30
Strategia żywej przynęty. "Ofiara pracuje dla siebie"
Aktualizacja: 2025-09-01T06:30:00+02:00
6:20
Airfryer czy parowar? Sprawdzamy, czym się różnią i podpowiadamy co wybrać
Aktualizacja: 2025-09-01T06:20:00+02:00
6:10
Hotel California czy oddział intensywnej terapii? Administracja Trumpa ma problemy z odpowiedzią
Aktualizacja: 2025-09-01T06:10:00+02:00
6:00
Byłem w siedzibie McLarena i muszę wam pokazać te niesamowite rzeczy
Aktualizacja: 2025-09-01T06:00:00+02:00
19:50
"Czy można usunąć kuzyna?". Tak manipulujemy swoimi wspomnieniami
Aktualizacja: 2025-08-31T19:50:37+02:00
18:48
Jesteśmy niemili, bo się spieszymy. A dziś wszystko nas popędza
Aktualizacja: 2025-08-31T18:48:38+02:00
17:54
Patrolują sklepy i obrażają dziewczyny. Co za obrzydliwy trend
Aktualizacja: 2025-08-31T17:54:11+02:00
16:15
Uwaga, nowe oszustwo na „Zwrot nadpłaty” za prąd. Tak wyglądają fałszywe powiadomienia
Aktualizacja: 2025-08-31T16:15:00+02:00
16:00
Powstaje jedna z największych farm wiatrowych w Polsce. Fundamenty już gotowe
Aktualizacja: 2025-08-31T16:00:00+02:00
15:30
Pierwsza polska elektrownia jądrowa staje się faktem. Ruszają prace
Aktualizacja: 2025-08-31T15:30:00+02:00
15:00
Jak oszczędzić na szybkim internecie i nowych smartfonach? Sprawdzamy ofertę Orange na back to school
Aktualizacja: 2025-08-31T15:00:00+02:00
8:00
Szokujący nowy trend. Sprzedają zdjęcia USG płodów, 50 zł za sztukę
Aktualizacja: 2025-08-31T08:00:00+02:00
7:45
Miały być niskie ceny i wreszcie są. Dzięki konkurencji na torach
Aktualizacja: 2025-08-31T07:45:00+02:00
7:30
Robak wytwarza pigment Rembrandta. I jeszcze zamienia truciznę w złoto
Aktualizacja: 2025-08-31T07:30:00+02:00
7:15
Pluton przyszłości, robot kroczący - to najnowsze polskie drony dla wojska
Aktualizacja: 2025-08-31T07:15:00+02:00
7:00
Nie działa ci ładowarka do smartfona? Wypróbuj ten trik
Aktualizacja: 2025-08-31T07:00:00+02:00
6:45
Jedno urządzenie oszczędza prąd w całym sklepie. Testują je w Polsce
Aktualizacja: 2025-08-31T06:45:00+02:00
16:40
Miał być polski rywal Disneylandu, jest klapa. Hossoland się odgraża, że to jeszcze nie koniec
Aktualizacja: 2025-08-30T16:40:00+02:00
16:15
Europa broni cyfrowej niepodległości. Macron miażdży Trumpa
Aktualizacja: 2025-08-30T16:15:00+02:00
16:00
Starlink zepsuł legendarny festiwal. Bo działał bez zarzutu
Aktualizacja: 2025-08-30T16:00:00+02:00
15:45
Żegnamy Windowsa 10, witamy nowy system. Co nowego w Windowsie 11 25H2?
Aktualizacja: 2025-08-30T15:45:00+02:00
15:30
Mam nadzieję, że nigdy nie będziemy idealni
Aktualizacja: 2025-08-30T15:30:00+02:00
14:44
Kłótnia pilota F-16 z kontrolą lotu. Tak wyglądały ostatnie chwile przed tragedią w Radomiu
Aktualizacja: 2025-08-30T14:44:44+02:00
7:51
Ależ gigantyczna dziura w ziemi. To pod wiatrowego kolosa od Taurona
Aktualizacja: 2025-08-30T07:51:00+02:00
7:44
Gnom podjeżdża do wroga i wybucha. To najnowszy polski dron
Aktualizacja: 2025-08-30T07:44:00+02:00
7:33
Pomiziasz go po brzuszku, a on zamruczy. Nowego robota pokochają głównie dorośli
Aktualizacja: 2025-08-30T07:33:00+02:00
7:20
Nowy bot jest bardzo pobożny. Ale prawdy się od niego nie dowiesz
Aktualizacja: 2025-08-30T07:20:00+02:00
REKLAMA
REKLAMA
REKLAMA