Meta chwaliła się najlepszym czatbotem na rynku. Internet szybko to zweryfikował
Najnowsza premiera modelu AI Mety pokazuje, że nie można ufać słupkom i wykresom z wynikami z testów porównawczych.

Kilka dni temu Meta zaprezentowała nowe duże modele językowe sztucznej inteligencji z rodziny Llama 4: mniejszy Scout oraz większy, Maverick. Premiera obyłaby się bez większego echa gdyby nie fakt, że Meta zadeklarowała, że Maverick w testach porównawczych wypada lepiej niż flagowe modele AI od Google i OpenAI.
Meta chciała pochwalić się swoim modelem AI. Z pokazu wyszedł skandal
Zaskakujące wyniki Mavericka zostały opublikowane nie tylko w biurze prasowym Mety, ale i w topliście LMArena - testu, w którym ludzie oceniają treści wygenerowane przez różne modele AI. Wyniki były sensacyjne, bowiem nagle Meta z firmy, która tworzy "całkiem okej" modele, zyskała tytuł firmy z modelem ocenianym przez użytkowników lepiej niż 4o OpenAI i tylko trochę gorzej niż Gemini 2.5 Pro.
Deklarowana wydajność Mavericka nie uszła uwadze środowisku badaczy i inżynierów sztucznej inteligencji i uczenia maszynowego, którzy zaczęli szukać przyczyn ponadprzeciętnych wyników. Jak donosi serwis TechCrunch, po zagłębieniu się w materiały udostępnione przez Metę - w szczególności wykres na oficjalnej stronie Llama - badacze odkryli, że do testów porównawczych użyto wersji Mavericka specjalnie dostrojonej do celów konwersacyjnych. Wersji, która nie została powszechnie udostępniona przez Metę.
Z konwersacyjnego Mavericka w formie czatbota można skorzystać na LM Arena, podczas gdy otwartoźródłowego Mavericka udostępnionego przez Metę można pobrać na komputery i uruchomić lokalnie - o ile ma się wystarczająco dobry komputer. Internauci porównali obie wersje modelu poprzez wpisywanie tych samych poleceń i instrukcji tekstowych (promptów). Maverick w LMArena miał dawać im znacznie lepsze odpowiedzi.
Sprawa zainteresowała także samo LM Arena, którego administratorzy usunęli Mavericka udostępnionego bezpośrednio przez Metę, zastępując go otwartoźródłową wersją dostępną w internecie.
Stanowisko zajęła także Meta, której rzecznika Ashely Gabriel zadeklarowała, że koncern "eksperymentuje z różnymi typami specjalnie dostosowanych wariantów" modeli AI.
„Llama-4-Maverick-03-26-Experimental” to wersja zoptymalizowana pod kątem czatu, z którą eksperymentowaliśmy, a która działa również dobrze na LMArenie. Wydaliśmy teraz naszą wersję open source i zobaczymy, jak programiści dostosowują Llama 4 do własnych przypadków użycia. Z niecierpliwością czekamy na ich opinie"
Więcej na temat AI:
Zdjęcie główne: M_Yunus / Shutterstock