REKLAMA

Test Turinga wyląduje w koszu. Badacze znaleźli lepszy sposób na badanie SI

Sztuczna inteligencja z roku na rok staje się coraz lepsza, jednak naukowcy od kilku dekad stosują ten sam test do sprawdzania potencjału SI. Nowo opracowany zestaw 204 zadań umożliwi naukowcom bardziej precyzyjnie określanie potencjału SI, niż robi to opracowany 70 lat temu test Turinga.

BIG-bench zbada sztuczną inteligencję i zastąpi test Turinga?
REKLAMA

Grupa ponad 400 naukowców zajmujących się sztuczną inteligencją zaproponowała zestaw zadań zastępujący słynny test Turinga, aby umożliwić bardziej precyzyjną ocenę możliwości sztucznej inteligencji.

REKLAMA

Modele językowe SI stały się w ostatnich latach zaskakująco, a często wręcz szokująco dobre w rozmowach z ludźmi. Jest to możliwe dzięki coraz większej skali - większej mocy obliczeniowej i ogromnym zbiorom danych treningowych, pochodzącym czasami również z najmniej spodziewanych miejsc. Wśród naukowców znaleźli się również eksperci pracujący dla Google'a, który od kilku dni mierzy się z kontrowersjami po zwolnieniu pracownika twierdzącego, że firma posiada "czujące SI" oraz oskarża koncern o nieetyczne praktyki względem sztucznej inteligencji.
Naukowcy spodziewają się, że w najbliższych latach możliwości sztucznej inteligencji wzrosną i badacze będą potrzebowali więcej niż jedynie testu Turinga do oceny potencjału SI.

Test Turinga to test służący jako wsparcie przy określaniu potencjału maszyny w posługiwaniu się językiem naturalnym pomagający ocenić zdolności maszyny do posługiwania się językiem naturalnym i do pewnego stopnia określenia umiejętności w porównaniu z ludzkimi. Test został opracowany w roku 1950 przez amerykańskiego matematyka, Alana Turinga. Pomimo bycia opracowanym ponad 70 lat temu, test Turinga jest nadal powszechnie stosowaną metodą w określaniu potencjału sztucznej inteligencji

BIG-bench to nowy zestaw zadań, który może zastąpić test Turinga

Aby precyzyjnie ocenić obecnie dostępną technologię i przygotować się na jeszcze bardziej zaawansowane modele SI w przyszłości, grupa 442 badaczy ze 132 instytucji spędziła dwa lata na tworzeniu testu - zestawu zadań zastępującego test Turinga. Test Beyond the Imitation Game Benchmark (BIG-bench) składa się z 204 różnorakich zadań obejmujących szeroki zakres tematów - w tym językoznawstwo, matematykę czy gry szachowe - które zostały zaprojektowane tak, by nie były w pełni rozwiązywalne przez obecnie najnowocześniejsze i najbardziej zaawansowane modele sztucznej inteligencji. W testach BIG-bench wykorzystano różne modele sztucznej inteligencji opartych na GPT-AI stworzonego przez OpenAI, lecz nie wykorzystano modeli, które nie są publicznie dostępne, takie jak LaMDA rozwijany przez Google.

W artykule przedstawiającym BIG-bench naukowcy stwierdzają, że narzędzie to będzie niezbędne do pracy w przyszłych badaniach, a także do identyfikowania i planowania wszelkich nowych, przełomowych zdolności lub potencjalnie negatywnych efektów działania sztucznej inteligencji.

REKLAMA

Ludzie-eksperci również wykonali ten sam zestaw 204 zadań, aby ustalić dla każdego z nich średni i najwyższy wynik bazowy. Badacze odkryli, że chociaż wyniki osiągane przez modele SI rosły wraz z ich rosnącą mocą obliczeniową, to sztuczna inteligencja nadal wypadała słabo w większości zadań w porównaniu z ludźmi.

Badacze zaangażowani w projekt stwierdzili również, że skala modeli SI nie miała wpływu na poprawę wyników sztucznej inteligencji w niektórych zadaniach, takich jak np. logiczne rozumowanie w odniesieniu do długich fragmentów tekstu wejściowego. To z kolei stanowi wskazówkę dla naukowców co do obszarów "myślowych", do których zrozumienia i rozwoju potrzeba więcej niż jedynie większej mocy obliczeniowej. Badania sugerują, że stale rosnąca skala może wręcz powodować problemy, ponieważ testy mierzące uprzedzenia społeczne w niektórych przypadkach dawały gorsze wyniki u większych modeli w porównaniu z mniejszymi modelami.

REKLAMA
Najnowsze
REKLAMA
REKLAMA
REKLAMA