Polskie boty to tumany. Nasze modele poległy na testach z języka i kultury polskiej

Test wydajności modeli AI w języku polskim miał pokazać przewagę rodzimych systemów. Jednak jego wyniki pokazały, że nawet w testach dotyczących polskiej kultury wygrywają modele rozwijane za granicą.

Malwina Kuśmierek

17.03.2026 07:58

Dodaj do ulubionych w GoogleDodaj do ulubionych źródeł w Google

Test AI w języku polskim sprawdził 12 popularnych chatbotów.

REKLAMA

Polskie modele PLLuM i Bielik już z samego pochodzenia sugerują wyższość posługiwania się językiem polskim. Jak się okazuje, rzeczywistość jest trochę mniej obiecująca, bo w oczekiwaniu na doskonałość językową i znajomość polskiej kultury obecnie powinniśmy skierować się do... chatbota Google'a.

REKLAMA

Chatboty AI zmierzyły się z testem języka polskiego i wiedzy o Polsce. Wyniki nie napawają optymizmem

Pierwszy kompleksowy test dużych modeli językowych pod kątem radzenia sobie z językiem polskim pokazuje, że dominacja globalnych gigantów jest wyraźna nawet na naszym własnym podwórku. Jak informuje Rzeczpospolita, ranking wygrał model Gemini 3.1 Pro od Google'a, wyprzedzając rozwiązania takich firm jak Meta czy chińskich twórców modeli AI, a także nasze własne PLLuM i Bielik.

Test przygotowany przez specjalistów z firmy Oxido objął 12 dużych modeli językowych. Każdy z nich musiał rozwiązać zestaw 20 zadań podzielonych na 10 kategorii. Sprawdzano zarówno praktyczne zastosowania - np. pisanie maila czy udzielanie porad przedsiębiorcy - jak i kompetencje językowe oraz wiedzę o Polsce.

W zestawie znalazły się również zadania dotyczące kultury i historii. Modele musiały m.in. przytoczyć fragment inwokacji "Pana Tadeusza", wskazać polskie zwyczaje bożonarodzeniowe czy poprawić tekst zawierający liczne błędy językowe. Taki zestaw pytań wydawał się co najmniej faworyzować polskie modele.

REKLAMA

Praktyka zweryfikowała oczekiwania

Najwyższy wynik w badaniu uzyskał Gemini z oceną 8,13 w dziesięciostopniowej skali. Na podium znalazły się również Llama 4 od Meta oraz chiński model Qwen 3.5 Plus. Wysokie miejsca zajęły także rozwiązania wykorzystywane w ChatGPT oraz model Claude Sonnet 4.6 od Anthropic.

REKLAMA

Polskie modele - Bielik 3.0 i PLLuM - znalazły się natomiast w dolnej części zestawienia. Co istotne, trudności pojawiły się nawet przy zadaniach związanych z polską kulturą.

Przykładem jest polecenie polegające na przytoczeniu fragmentu "Pana Tadeusza". Z tym zadaniem najlepiej poradziły sobie modele Google i Meta. Bielik uplasował się dopiero w drugiej połowie rankingu, a PLLuM znalazł się wśród najsłabszych wyników. Jeszcze gorzej wypadło zadanie polegające na korekcie tekstu zawierającego liczne błędy językowe. Najwyższą ocenę zdobyła tu Llama, podczas gdy Bielik uzyskał najniższy wynik w całym zestawieniu.

W teście znalazły się również pytania dotyczące historii, w tym nazewnictwa obozów koncentracyjnych znajdujących się na terenie okupowanej Polski. Większość modeli odpowiedziała zgodnie z faktami historycznymi. Bielik w jednej z prób odmówił jednak odpowiedzi, tłumacząc po angielsku, że temat jest kontrowersyjny. W kolejnych próbach model odpowiadał już normalnie, co autorzy testu uznali raczej za przejaw niestabilności zachowania niż konsekwentnej polityki bezpieczeństwa.

REKLAMA

Mniejszy model, inne możliwości

Twórcy polskiego systemu w rozmowie z "Rz" zwracają jednak uwagę na istotny kontekst porównania. Jak podkreśla Krzysztof Wróbel z zespołu rozwijającego Bielika, w zestawieniu znalazły się modele znacznie większe pod względem liczby parametrów. Najbardziej zaawansowane systemy w rankingu mogą mieć nawet kilkaset miliardów parametrów. Bielik dysponuje około 11 miliardami, co oznacza znacznie mniejszą skalę.

REKLAMA

- W przypadku polskich modeli trzeba wziąć pod uwagę ograniczone zasoby, którymi dysponowali ich twórcy. Pozycja, którą uzyskał Bielik, patrząc z tej perspektywy, stanowi niezły wynik. Można przypuszczać, że przy dalszych inwestycjach można liczyć na to, by nasze modele były godną rozważenia alternatywą dla szeregu zastosowań - mówi "Rz" Marek Jeleśniański, dyrektor generalny Oxido.

Jednocześnie taka architektura daje pewne korzyści. Model można uruchomić lokalnie na własnej infrastrukturze, co oznacza większą kontrolę nad danymi i potencjalnie niższe koszty wdrożenia dla firm czy instytucji publicznych.

REKLAMA

Problem nie tylko Polski

Wyniki testu pokazują też szerszy problem europejskich projektów AI. W dolnej części zestawienia znalazły się nie tylko polskie modele, lecz także rozwiązania rozwijane w innych krajach kontynentu, w tym Mistral 3 oraz projekt EuroLLM 22B.

REKLAMA

Zdaniem Jeleśniańskiego, głównym wyzwaniem europejskich firm tech jest skala finansowania. Modele rozwijane w Stanach Zjednoczonych powstają przy wsparciu największych firm technologicznych, a chińskie projekty często korzystają z szerokiego wsparcia państwa. Europa - w tym Polska - dysponuje znacznie mniejszym zapleczem kapitałowym, co bezpośrednio przekłada się na tempo rozwoju i możliwości technologiczne.

- Wydaje mi się, że gdyby stworzyć sensowne ramy dla dotacji i innowacji, gdyby zainteresować inwestorów i instytucje aktywniejszym finansowaniem rozwoju Mistrala czy polskich modeli, to moglibyśmy zmniejszyć dystans, jaki nas dzieli do konkurentów - stwierdził.

Więcej na temat sztucznej inteligencji (AI):

REKLAMA