Zajrzeli pod maskę nowej wyszukiwarki Google. "Mówi miliony kłamstw na minutę"
Przeglądy od AI w wyszukiwarce Google miały uprościć dostęp do wiedzy. Analiza wykazała jednak, że funkcja nadal namiętnie generuje błędy.

Przeglądy od AI w wyszukiwarce Google zadebiutowały w bardzo niechlubny dla Google'a sposób, sugerując użytkownikom zastosowanie kleju jako dodatku do pizzy. Rok później, gdy Przeglądy od AI w wyszukiwarce Google zadebiutowały w Polsce, funkcja była już bardziej dopracowana. Ale jak jest obecnie?
Przeglądy od AI w wyszukiwarce Google są dalekie od ideału
Na to pytanie postanowił odpowiedzieć The New York Times, którego dziennikarze - we współpracy ze startupem Oumi - przeanalizowali dokładność automatycznych podsumowań generowanych przez Google. Wyniki są jednocześnie uspokajające i niepokojące: system odpowiada poprawnie w około 90 proc. przypadków. Problem w tym, że przy skali działania wyszukiwarki to nadal oznacza setki tysięcy błędnych odpowiedzi na minutę.
Badanie oparto na benchmarku SimpleQA, czyli zestawie ponad 4 tys. pytań o jednoznacznych, możliwych do zweryfikowania odpowiedziach. To narzędzie, opracowane przez OpenAI, jest powszechnie używane do oceny "faktograficzności" modeli językowych. W październiku, gdy Przeglądy od AI opierały się na modelu Gemini 2, trafność wynosiła około 85 proc. Po wdrożeniu Gemini 3 wzrosła do 91 proc.
Na papierze to wyraźny postęp. W praktyce jednak 90 proc. skuteczności przy pięciu bilionach zapytań wysyłanych do Google'a każdego roku przekłada się na około 500 mld. odpowiedzi zawierających błędy. Co więcej, jak zaznacza "NYT", ponad połowa poprawnych odpowiedzi była tzw. "nieugruntowana" - pomimo poprawności linkowała do źródeł, które nie potwierdzały w pełni przedstawionych informacji.
Przykłady wskazywane w analizie pokazują naturę problemu. W jednym przypadku system miał podać datę przekształcenia domu Boba Marleya w muzeum. Odpowiedź była błędna, mimo że AI wskazało kilka źródeł - żadne z nich nie zawierało jednoznacznej daty lub zawierało sprzeczne informacje. W innym zapytaniu, dotyczącym dołączenia światowej sławy wiolonczelisty Yo-Yo Ma do Galerii Sław Muzyki Klasycznej system jednocześnie linkował do właściwej strony i twierdził, że dana instytucja nie istnieje.
Analiza pokazała, że Przeglądy od AI często nadzwyczaj często korzystają z wątpliwych źródeł - takich jak Facebook, Reddit czy fora dyskusyjne. Wśród wszystkich obiektywnie błędnych Przeglądów od AI, najczęściej linkowane były właśnie tego typu źródła.
Google w odpowiedzi na artykuł zakwestionował metodologię badania. Przedstawiciel firmy, Ned Adriance, stwierdził, że test zawiera "poważne luki" i nie odzwierciedla rzeczywistych zapytań użytkowników. Firma podkreśla też, że korzysta z własnych wariantów benchmarków, opartych na dokładniej zweryfikowanych pytaniach.
Problem w tym, że ocena modeli generatywnych pozostaje niejednoznaczna. Te same zapytania mogą zwracać różne odpowiedzi w zależności od momentu ich zadania, a nawet narzędzia wykorzystywane do testowania AI - również oparte na sztucznej inteligencji - mogą popełniać błędy. Dodatkowym czynnikiem wpływającym na trafność odpowiedzi jest architektura samej usługi. Przeglądy od AI nie opierają się na jednym modelu, lecz dynamicznie dobierają warianty - od bardziej zaawansowanych i wolniejszych dla bardziej skomplikowanych zapytań, po szybsze i tańsze dla "błahych" kwestii.
No i nie zapominajmy o ostatniej kwestii: "NYT" zajęło się jedynie zapytaniami w języku angielskim, dla postaci, obiektów i zjawisk dobrze udokumentowanych w tym języku. Gdyby pokusić się o sprawdzenie skuteczności w innych językach, prawdopodobnie wynik byłby mniej pozytywny.
Czym właściwie jest "wystarczająca" dokładność dla systemów AI?
Idąc przez życie, nauczyliśmy się, że 90 proc. to wystarczający wynik na sprawdzianie, egzaminie czy teście. Jednak ciężko uznać te same wyniki za zadowalające dla systemu, który w wizji Google'a ma być pierwszym źródłem informacji na dany temat. I niestety stanowczo zbyt często jest również ostatnim źródłem informacji dla wielu internautów.
Oczywiście Google ma na to kartę wyjścia z więzienia pod postacią dopisku "Odpowiedzi generowane przez sztuczną inteligencję mogą zawierać błędy." umieszczoną pod każdą odpowiedzią. Jednak trudno oczekiwać, by użytkownicy traktowali to ostrzeżenie poważnie, gdy cała konstrukcja interfejsu zachęca raczej do bezrefleksyjnego przyjęcia gotowej odpowiedzi niż do jej weryfikacji.
Zdjęcie główne: Thaspol Sangsee / Shutterstock



















