Polski język jednak nie jest taki świetny dla AI. Microsoft dementuje
Microsoft prostuje medialne rewelacje: polski język nie jest wcale najlepszy dla sztucznej inteligencji.

Wbrew temu, co można było na pierwszy rzut oka wywnioskować z testów OneRuler, polski język wcale nie okazał się najlepszym narzędziem do komunikacji ze sztuczną inteligencją. Microsoft prostuje doniesienia i podkreśla, że badanie OneRuler nie miało na celu porównywania języków pod kątem ich przydatności do promptowania.
Benchmark OneRuler badał przede wszystkim to, jak duże modele językowe radzą sobie z przetwarzaniem wyjątkowo długich tekstów, ale jak się okazuje, nie porównywał języków pod kątem jakości czy skuteczności komunikacji z AI. Celem badania nie było sprawdzenie, czy po polsku da się lepiej rozmawiać z chatbotem, tylko czy modele potrafią efektywnie przeszukiwać wielostronicowe treści.
Szukanie igły w stogu siana. Ale w różnych książkach
Jak czytamy na łamach portalu Nauka w Polsce, w ramach testów OneRuler modele otrzymywały zadanie znalezienia konkretnej informacji ukrytej w długim tekście, np. w książce. W przypadku języka polskiego użyto Nocy i dni, po hiszpańsku był to Don Kichot, a po angielsku Małe kobietki. Modele miały wskazać ukryte w tekście zdanie, korzystając przy tym z polecenia w tym samym języku.
Różnice w skuteczności nie były jednak bardzo duże, a język polski rzeczywiście uplasował się wysoko. Jak zaznacza jednak współautorka badania Marzena Karpińska, mogło to wynikać z charakteru użytych książek, a nie z właściwości samego języka. Być może Noce i dnie były po prostu łatwiejsze do przetworzenia, niż inne lektury. Dodatkowym czynnikiem wpływającym na wyniki był fakt, że modele musiały także rozpoznać sytuację, w której odpowiedź w ogóle nie istnieje w tekście. W takich przypadkach skuteczność AI drastycznie spadała.
To nie był test promptowania
Jak podkreśla Karpińska, OneRuler nie badał w ogóle promptowania, czyli tworzenia skutecznych poleceń dla AI. To zupełnie inna dziedzina, niż testowanie zdolności do przeszukiwania długich treści.
W badaniu tym jest tak dużo różnych czynników, że na pewno nie możemy na jego podstawie stwierdzić, że polski jest najlepszym językiem do „promptowania” – podkreśla badaczka.
Nie bez znaczenia jest też fakt, że modele językowe nie działają jak wyszukiwarki. Nie mają funkcji CTRL+F, nie przeszukują tekstu w klasyczny sposób, tylko próbują domyślić się właściwej odpowiedzi na podstawie wzorców językowych. Stąd też tak wiele błędów, nawet w pozornie prostych zadaniach.
AI nadal zawodzi. Użytkownicy muszą być ostrożni
Jaki jest zatem najważniejszy i podstawowy wniosek z badania OneRuler? Nawet najnowocześniejsze modele językowe wciąż mają poważne ograniczenia. AI potrafi się pomylić nawet przy z pozoru banalnych zadaniach. Zwłaszcza wtedy, gdy wymaga się od niej zrozumienia, że odpowiedzi może w ogóle nie być. Karpińska zwraca uwagę, że użytkownicy mają często zbyt duże zaufanie do chatbotów. Zdaniem badaczki zawsze warto sprawdzać odpowiedzi w innych źródłach i pamiętać, że AI wciąż bywa zawodna.
Przeczytaj także:
Język polski może i wypadł nieźle w jednym z benchmarków, ale niestety nie czyni go to królem AI. Microsoft stanowczo prostuje medialne uproszczenia, a naukowcy przypominają, że zanim uwierzymy w rewolucję językową, warto zajrzeć głębiej w metodologię.







































