Ładowanie...

Wbrew temu, co można było na pierwszy rzut oka wywnioskować z testów OneRuler, polski język wcale nie okazał się najlepszym narzędziem do komunikacji ze sztuczną inteligencją. Microsoft prostuje doniesienia i podkreśla, że badanie OneRuler nie miało na celu porównywania języków pod kątem ich przydatności do promptowania.

Benchmark OneRuler badał przede wszystkim to, jak duże modele językowe radzą sobie z przetwarzaniem wyjątkowo długich tekstów, ale jak się okazuje, nie porównywał języków pod kątem jakości czy skuteczności komunikacji z AI. Celem badania nie było sprawdzenie, czy po polsku da się lepiej rozmawiać z chatbotem, tylko czy modele potrafią efektywnie przeszukiwać wielostronicowe treści.

REKLAMA

Szukanie igły w stogu siana. Ale w różnych książkach

Jak czytamy na łamach portalu Nauka w Polsce, w ramach testów OneRuler modele otrzymywały zadanie znalezienia konkretnej informacji ukrytej w długim tekście, np. w książce. W przypadku języka polskiego użyto Nocy i dni, po hiszpańsku był to Don Kichot, a po angielsku Małe kobietki. Modele miały wskazać ukryte w tekście zdanie, korzystając przy tym z polecenia w tym samym języku.

Różnice w skuteczności nie były jednak bardzo duże, a język polski rzeczywiście uplasował się wysoko. Jak zaznacza jednak współautorka badania Marzena Karpińska, mogło to wynikać z charakteru użytych książek, a nie z właściwości samego języka. Być może Noce i dnie były po prostu łatwiejsze do przetworzenia, niż inne lektury. Dodatkowym czynnikiem wpływającym na wyniki był fakt, że modele musiały także rozpoznać sytuację, w której odpowiedź w ogóle nie istnieje w tekście. W takich przypadkach skuteczność AI drastycznie spadała.

To nie był test promptowania

Jak podkreśla Karpińska, OneRuler nie badał w ogóle promptowania, czyli tworzenia skutecznych poleceń dla AI. To zupełnie inna dziedzina, niż testowanie zdolności do przeszukiwania długich treści.

W badaniu tym jest tak dużo różnych czynników, że na pewno nie możemy na jego podstawie stwierdzić, że polski jest najlepszym językiem do „promptowania” – podkreśla badaczka.

Nie bez znaczenia jest też fakt, że modele językowe nie działają jak wyszukiwarki. Nie mają funkcji CTRL+F, nie przeszukują tekstu w klasyczny sposób, tylko próbują domyślić się właściwej odpowiedzi na podstawie wzorców językowych. Stąd też tak wiele błędów, nawet w pozornie prostych zadaniach.

AI nadal zawodzi. Użytkownicy muszą być ostrożni

Jaki jest zatem najważniejszy i podstawowy wniosek z badania OneRuler? Nawet najnowocześniejsze modele językowe wciąż mają poważne ograniczenia. AI potrafi się pomylić nawet przy z pozoru banalnych zadaniach. Zwłaszcza wtedy, gdy wymaga się od niej zrozumienia, że odpowiedzi może w ogóle nie być. Karpińska zwraca uwagę, że użytkownicy mają często zbyt duże zaufanie do chatbotów. Zdaniem badaczki zawsze warto sprawdzać odpowiedzi w innych źródłach i pamiętać, że AI wciąż bywa zawodna.

Przeczytaj także:

REKLAMA

Język polski może i wypadł nieźle w jednym z benchmarków, ale niestety nie czyni go to królem AI. Microsoft stanowczo prostuje medialne uproszczenia, a naukowcy przypominają, że zanim uwierzymy w rewolucję językową, warto zajrzeć głębiej w metodologię.

REKLAMA

Marcin Kusz 12.11.2025 06:30

Ładowanie...