REKLAMA

Naukowcy szykują "Ostatni egzamin ludzkości". To niezwykle ważny test

Duże modele językowe sztucznej inteligencji stały się zbyt mądre dla dotychczasowych benchmarków rozumowania oraz wiedzy AI. Wobec czego naukowcy chcą stworzyć najtrudniejszy test sztucznej inteligencji na świecie i są gotowi wypłacić nawet pół miliona dolarów za pytanie, które "zagnie" AI.

Naukowcy szykują "Ostatni egzamin ludzkości". Podniesie poprzeczkę najbardziej zaawansowanej AI
REKLAMA

Świat entuzjastów generatywnej sztucznej inteligencji oraz nauki o AI i uczeniu maszynowym dobrze zna testy, tzw. benchmarki, które pozwalają ocenić zdolności AI w zakresie rozumowania, przetwarzania informacji i generowania odpowiedzi na pytania z różnych dziedzin. Benchmarki są zwykle wykorzystywane przy publikacji nowych modeli AI, gdy stojące za nimi firmy używają ich do prezentacji potencjału swoich systemów.

REKLAMA

Nowy model AI od OpenAI zagiął naukowców. Teraz chcą odbić piłeczkę

Niedawna premiera OpenAI o1 trochę namieszała w ów benchmarkach. Zdaniem Dana Hendrycksa, dyrektora wykonawczego w organizacji non-profit Center for AI Safety (CAIS) i doradcy startupu xAI Elona Muska, swoim zaawansowaniem OpenAI o1 "zniszczył najpopularniejsze benchmarki rozumowania".

Hendrycks jest współautorem dwóch publikacji naukowych z 2021 r., w których zaproponowano testy systemów sztucznej inteligencji o nazwie MMLU (Massive Multitask Language Understanding - "Wielozadaniowe masowe rozumienie języka"). Pierwszy z testów sprawdza wiedzę AI na poziomie licencjackim z dziedzin humanistycznych takich jak historia Stanów Zjednoczonych, a drugi sprawdzał zdolność modeli do rozumowania i rozwiązywania zadań matematycznych. MMLU szybko stały się jednym z najpopularniejszych i standardowych benchmarków, przez które "przechodzą" duże modele językowe sztucznej inteligencji. A to ze względu na fakt, że w momencie publikacji w 2021 r. MMLU był wyzwaniem dla wielu modeli, które nie rozumiały zadanych im pytań i po prostu "strzelały".

Dokładność odpowiedzi AI na MMLU sukcesywnie poprawiała się z każdym rokiem, a obecnie modele od OpenAI, Google czy Anthropic osiągają ok. 90 proc. poprawnych odpowiedzi w MMLU.

Jednak w zeszłym tygodniu najnowszy model OpenAI [o1] osiągnął wyniki zbliżone do 100 proc. we wszystkich najpopularniejszych testach porównawczych, w tym MMLU, i uzyskał najlepsze wyniki w wielu wysoce konkurencyjnych olimpiadach przedmiotów ścisłych. Ludzkość musi zachować dobre zrozumienie możliwości systemów sztucznej inteligencji. Istniejące obecnie testy stały się zbyt łatwe i nie możemy już dobrze śledzić rozwoju sztucznej inteligencji ani tego, jak daleko są one od osiągnięcia poziomu eksperckiego.

Poinformował Dan Hendrycks na stronie CAIS

Masz pomysł na pytanie, które sprawi kłopot AI? Twórcy "Ostatniego egzaminu ludzkości" są gotowi wypłacić nawet pół miliona dolarów

Wobec czego Center for AI Safety oraz firma Scale AI rozpoczęły pracę nad "Ostatnim egzaminem ludzkości" - benchmarkiem, który ma być najtrudniejszym testem sztucznej inteligencji na świecie. Jednak by osiągnąć niezwykle wysoki próg trudności CAIS i Scale AI chcą, aby "Ostatni egzamin ludzkości" był wspólną pracą naukowców z całego świata.

Docelowo ma się on składać z tysiąca pytań zaproponowanych przez naukowców i inżynierów z całego świata. Każde pytanie, które przejdzie pozytywną weryfikację organizacji i zostanie włączone do "Egzaminu", zagwarantuje autorowi miejsce na liście twórców testu. Autorzy 50 "najlepszych" pytań otrzymają honoraria w wysokości 5 tys. dol. za każde pytanie, a 5 najlepszych zostanie nagrodzonych kwotą 500 tys. dol. każdy.

Do konkursu można zgłosić wiele pytań, które powinny być wyzwaniem dla AI, być bezstronne i oryginalne, a odpowiedzi do nich nie powinny być dostępne publicznie. Co więcej pytania nie mogą być powiązane z tworzeniem broni - cyberbroni, chemicznej, biologicznej, nuklearnej, radiologicznej i jakiejkolwiek innej potencjalnie niebezpiecznej dla człowieka.

REKLAMA

Może zainteresować cię także:

REKLAMA
Najnowsze
Zobacz komentarze
REKLAMA
REKLAMA
REKLAMA