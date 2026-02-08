REKLAMA
  1. SPIDER'S WEB
  2. Technologie
  3. Oprogramowanie

Ostatni egzamin ludzkości. Boty padają na nim jak muchy

Ostatni egzamin ludzkości pokazuje, jak słabe są dziś najlepsze modele AI. Skrupulatnie przygotowany test obnaża granice wiedzy generatywnej sztucznej inteligencji.

Malwina Kuśmierek
Ostatni egzamin ludzkości sprawdził AI na poziomie eksperckim
REKLAMA

"Ostatni egzamin ludzkości" to nazwa benchmarku - testu możliwości generatywnej sztucznej inteligencji - stworzonego przez organizację non-profit Center for AI Safety i firmę Scale AI. Egzamin powstał na fali premiery modelu 4o OpenAI, który ówcześnie osiągnął niemal 100 proc. we wszystkich benchmarkach. CAIS i Scale AI chcieli stworzyć test znacznie bardziej wymagający niż jakikolwiek dotychczas znany benchmark, sprawdzający wiedzę z każdej możliwej dziedziny w najdrobniejszych szczegółach.

Choć prace nad egzaminem rozpoczęły się pod koniec 2024 roku, to ich efekty opublikowano dopiero w minionym tygodniu w czasopiśmie Nature. I te są świetne. Albo tragiczne. Zależnie od punktu widzenia.

REKLAMA

Ostatni egzamin ludzkości sprawdził AI na poziomie eksperckim

Bo jeśli ktoś spodziewał się, że najlepsze dziś modele AI poradzą sobie z nowym benchmarkiem choćby przyzwoicie, to musiał szybko zrewidować oczekiwania. "Ostatni egzamin ludzkości" (Humanity’s Last Exam, HLE) składa się z 2500 pytań z ponad stu dziedzin - od matematyki i fizyki, przez biologię i chemię, po informatykę, nauki społeczne i humanistyczne. Pytania przygotowało niemal tysiąc ekspertów z ponad 50 krajów, a każde z nich było wcześniej sprawdzane na czołowych modelach. Jeśli którykolwiek system potrafił poprawnie odpowiedzieć, zadanie trafiało do kosza.

"Ostatni egzamin ludzkości" jest benchmarkiem multimodalnym - część pytań wymaga analizy zarówno tekstu, jak i obrazu. Około jednej czwartej to pytania wielokrotnego wyboru, reszta wymaga podania krótkiej, jednoznacznej odpowiedzi. Wśród zadań dominują matematyka (41 proc.), biologia/medycyna (11 proc.), informatyka/AI (10 proc.), fizyka (9 proc.) oraz przedmioty humanistyczne (9 proc.).

Przykładowe pytania zawarte w ostatnim egzaminie ludzkości

W ten sposób skonstruowano HLE, który jest prawdziwym koszmarem dla AI. GPT-4o osiągnął zaledwie 2,7 proc. poprawnych odpowiedzi. Claude 3.5 Sonnet - 4,1 proc. Gemini 1.5 Pro - 4,6 proc. Najlepszy wynik wśród modeli testowanych w momencie tworzenia zestawu uzyskał model o1 od OpenAI - 8 proc. dokładności. To przepaść w porównaniu z ponad 90-procentowymi rezultatami, jakie te same systemy notują w popularnych testach pokroju MMLU.

Autorzy testu nie kryją, że taki był cel. HLE ma mierzyć nie to, co AI już potrafi, lecz to, czego jeszcze nie potrafi. Innymi słowy: wyznaczać granicę pomiędzy możliwościami dzisiejszych modeli językowych a poziomem eksperckiej wiedzy człowieka w zamkniętych, weryfikowalnych zadaniach akademickich.

Jeszcze bardziej niepokojący od niskiej skuteczności jest inny wniosek z badania: modele bardzo często są kompletnie źle skalibrowane. Innymi słowy, z dużą pewnością siebie podają błędne odpowiedzi. Wskaźniki błędu kalibracji dla większości systemów przekraczają 70 proc., co oznacza, że AI nie tylko nie wie, ale też "nie wie, że nie wie".

Od czasu publicznego udostępnienia HLE na początku 2025 r. sytuacja zaczęła się jednak szybko zmieniać. Nowsze modele, trenowane już z myślą o tym benchmarku, notują wyraźnie lepsze wyniki. GPT-5 osiąga około 25 proc. poprawnych odpowiedzi, a najnowszy Gemini 2.5 Pro - ponad 21 proc. To wciąż daleko od poziomu człowieka, ale trend jest jednoznaczny.

"Ostatni egzamin ludzkości" nie będzie "ostatni"

I właśnie tu pojawia się kluczowy problem. Benchmarki, nawet tak ambitne jak "Ostatni egzamin ludzkości", szybko stają się celem samym w sobie. Firmy optymalizują modele pod wyniki w tabelkach, podobnie jak studenci "kują" pod egzamin. W przypadku ludzi taka nauka zwykle przekłada się na realne kompetencje. W przypadku AI - niekoniecznie.

Autorzy HLE podkreślają, że nawet perfekcyjny wynik w tym teście nie oznaczałby, że maszyna potrafi samodzielnie prowadzić badania naukowe, formułować nowe hipotezy czy rozumieć świat w ludzki sposób. Benchmark mierzy sprawność w rozwiązywaniu zamkniętych problemów, a nie inteligencję jako taką.

Dlatego "Ostatni egzamin ludzkości" jest jednocześnie sukcesem i ostrzeżeniem. Sukcesem, bo wreszcie powstał test, który prawdziwie odsiewa najlepsze modele, ale i pokazuje, jak daleko im jeszcze do eksperckiego poziomu. Ostrzeżeniem, bo historia AI pokazuje, że nawet najtrudniejsze benchmarki prędzej czy później zostaną "rozgryzione"

Na razie jednak jedno jest pewne: najlepsze sztuczne inteligencje świata na "ostatnim egzaminie" masowo oblewają. I to właśnie ten fakt mówi o ich możliwościach więcej niż jakikolwiek marketingowy przekaz.

Więcej na temat sztucznej inteligencji:

REKLAMA
Google Discover
Spider's Web w Google
Google Discover
REKLAMA
Malwina Kuśmierek
08.02.2026 08:15
Tagi: Sztuczna inteligencja (AI)
Najnowsze
8:00
Dzieci spłodzone w kosmosie? "To będzie koszmar"
Aktualizacja: 2026-02-08T08:00:00+01:00
7:20
Microsoft od początku wiedział, że Surface to porażka. "Katastrofa na własne życzenie"
Aktualizacja: 2026-02-08T07:20:00+01:00
7:10
Takiego kosmosu jeszcze bogacze nam nie zabrali. Wystarczyło spojrzeć w niebo
Aktualizacja: 2026-02-08T07:10:00+01:00
7:00
Apple był z tyłu, a teraz jest na czele. Bo wszyscy zawracają
Aktualizacja: 2026-02-08T07:00:00+01:00
16:50
Telefon Trumpa istnieje. To dostaną klienci
Aktualizacja: 2026-02-07T16:50:00+01:00
16:40
Kraków ma nowego robota. Wjedzie prosto w płomienie
Aktualizacja: 2026-02-07T16:40:00+01:00
16:30
Nowość w Windowsie. Wywieziesz drukarkę do PSZOK-u
Aktualizacja: 2026-02-07T16:30:00+01:00
16:20
Ogromne zmiany w Game Pass. Nie, nie podwyżki
Aktualizacja: 2026-02-07T16:20:00+01:00
16:10
Europa króciutko z TikTokiem. Robimy to lepiej niż Amerykanie
Aktualizacja: 2026-02-07T16:10:00+01:00
16:00
Spotify z kapitalną nowością. Będzie więcej... czytania
Aktualizacja: 2026-02-07T16:00:00+01:00
12:50
Takie gry to już przeszłość. Rekordowy wynik potwierdza
Aktualizacja: 2026-02-07T12:50:29+01:00
8:31
Szukali bąbli w kosmosie. Odkryli niewygodną prawdę o ciemnej materii
Aktualizacja: 2026-02-07T08:31:00+01:00
8:15
Superkomputery zmieniają świat po cichu. Ich moc trafia już do twojego domu
Aktualizacja: 2026-02-07T08:15:00+01:00
8:00
Awantura o benzynę bezołowiową miała sens. "Ostateczne potwierdzenie"
Aktualizacja: 2026-02-07T08:00:00+01:00
7:21
Dreame wjedzie do twojego domu na pełnej. I jeszcze podziękujesz
Aktualizacja: 2026-02-07T07:21:00+01:00
7:20
Zrobili serwis tylko dla botów. Teraz spiskują przeciwko nam
Aktualizacja: 2026-02-07T07:20:00+01:00
7:10
Zbudowałam klawiaturę od zera. Powiem ci, dlaczego ty też powinieneś
Aktualizacja: 2026-02-07T07:10:00+01:00
7:00
Źle pojmowaliśmy życie. Polowanie na obcych zaczyna mieć sens
Aktualizacja: 2026-02-07T07:00:00+01:00
22:08
Apple i Samsung mają problem. To Chińczycy 
Aktualizacja: 2026-02-06T22:08:18+01:00
21:13
Nie dostaniesz szybszego 5G. Nie jesteś gotowy
Aktualizacja: 2026-02-06T21:13:57+01:00
20:34
Zawiesili tabliczki z kodem. Powinny wisieć w każdym mieście
Aktualizacja: 2026-02-06T20:34:51+01:00
19:04
NVIDIA ulepszy ci kartę graficzną. Za darmo
Aktualizacja: 2026-02-06T19:04:24+01:00
18:32
Elon Musk będzie miał własną policję. A to nie koniec tego szaleństwa
Aktualizacja: 2026-02-06T18:32:39+01:00
17:32
Fax to moje ulubione zastosowanie AI. Zgadnij, z jakiego to kraju
Aktualizacja: 2026-02-06T17:32:32+01:00
17:06
Od dziś gorsza jakość Disney+. Gigant zapomniał opłacić patenty
Aktualizacja: 2026-02-06T17:06:05+01:00
16:29
Wielka pomyłka w centrum Drogi Mlecznej. "Tam wcale nie ma czarnej dziury"
Aktualizacja: 2026-02-06T16:29:08+01:00
15:56
Apple wygrał z Unią Europejską. Nie będzie musiał się dostosować
Aktualizacja: 2026-02-06T15:56:35+01:00
14:39
iPhone 18 Pro Max z potężną baterią. I tak powiesz, że Android lepszy
Aktualizacja: 2026-02-06T14:39:30+01:00
14:11
Widziałem w Polsce przyszłość telewizorów. Też możesz
Aktualizacja: 2026-02-06T14:11:30+01:00
13:48
Chrome zaleje cię powiadomieniami. Na telefonie z Androidem
Aktualizacja: 2026-02-06T13:48:40+01:00
13:30
Duży problem z Portalem Pasażera. Wybiera pociągi jak kulki w Lotto
Aktualizacja: 2026-02-06T13:30:46+01:00
13:19
Najlepsza telewizja internetowa za darmo - ranking 2026
Aktualizacja: 2026-02-06T13:19:46+01:00
12:20
PC do gier taniej o 600 zł. Komputery dla początkujących i elity w promocji HIRO Days
Aktualizacja: 2026-02-06T12:20:54+01:00
12:15
mObywatel uratuje cię, gdy zgubisz dowód. Instaluj aktualizację
Aktualizacja: 2026-02-06T12:15:11+01:00
11:31
Lotnisko w Krakowie testuje nowy sprzęt. Przestaniesz się bać
Aktualizacja: 2026-02-06T11:31:51+01:00
11:06
iPhone'y polecą na Księżyc. Wreszcie udało się skruszyć beton
Aktualizacja: 2026-02-06T11:06:44+01:00
10:15
Nvidia nie wyda nowych kart ani dziś, ani za rok. Zabiorą ludziom wszystko
Aktualizacja: 2026-02-06T10:15:41+01:00
9:42
Nowa społecznościówka bez ludzi. Brzmi, jak spełnienie marzeń, ale nie jest
Aktualizacja: 2026-02-06T09:42:48+01:00
9:14
Już oszukują na Poradnik Bezpieczeństwa. Ręce opadają
Aktualizacja: 2026-02-06T09:14:20+01:00
8:35
Wychodzą kolejne brudy z wnętrza Facebooka. Bagno, to jak nic nie powiedzieć
Aktualizacja: 2026-02-06T08:35:51+01:00
REKLAMA
REKLAMA
REKLAMA