Jest problem. Popularna wyszukiwarka zalana publikacjami wygenerowanymi przez AI
Naukowcom wystarczyło proste wyszukiwanie, by odkryć grubo ponad sto prac nieuczciwie wykorzystujących generatywną sztuczną inteligencję. A to według nich jedynie szczyt góry lodowej, bo tylko w zeszłym roku 1 proc. wszystkich publikacji naukowych mógł zostać napisany przy użyciu AI.
Google Scholar to znana dobrze studentom wyszukiwarka internetowa, która indeksuje i pozwala na wyszukiwanie publikacji naukowych. Dla wielu osób pobierających edukację na uczelniach wyższych Google Scholar jest niezastąpione, gdyż to właśnie dzięki tej wyszukiwarce są oni w stanie znaleźć prace naukowe przydatne przy tworzeniu własnych publikacji.
Jak się okazuje, sposób, w jaki działa Google Scholar może w prosty sposób zaprowadzić studentów i naukowców w maliny. Wszystko za sprawą naszych ulubionych modeli generatywnej sztucznej inteligencji.
Google Scholar jest pełne prac nieuczciwie wykorzystujących AI
Zespół szwedzkich naukowców pod przewodnictwem Jutty Haider opublikował na łamach harvardzkiego czasopisma Misinformation Review publikację poświęconą obecności tworów generatywnej sztucznej inteligencji wśród prac zaindeksowanych w Google Scholar.
W tym celu naukowcy rozpoczęli od pobrania 227 prac naukowych, które znaleźli poprzez wyszukiwanie w Google Schoolar za pomocą fraz typowych dla generatywnej AI pokroju "od mojej ostatniej aktualizacji wiedzy" i/lub "Nie mam dostępu do danych w czasie rzeczywistym".
Spośród 227 prac, 88 zostało napisane przy legalnym lub deklarowanym użyciu AI. Natomiast aż 139 prac - 57 proc., zostało napisanych "z niezadeklarowanym i/lub oszukańczym użyciem". "Legalne" i "oszukańcze" użycie badacze rozróżniali na podstawie tego czy fałszywe pozytywy i halucynacje były integralną częścią całej publikacji ("oszukańcze"), czy jedynie były wspominane i zostawały wykluczone z dalszej analizy ("legalne").
Spośród 139 feralnych artykułów naukowych,19 z nich znajdowało się w indeksowanych czasopismach (tj. ujętych w specjalizującej się w tym bazie danych), 89 w czasopismach nieindeksowanych, 19 to prace studenckie znalezione w uniwersyteckich bazach danych, a 12 to prace robocze (głównie w bazach preprintów).
Publikacje były pisane na różne, bliżej niesprecyzowane przez naukowców tematy (60), 32 z nich dotyczyło szeroko pojętej informatyki, 27 środowiska, a 20 zdrowia i medycyny.
139 prac z nieuczciwym użyciem generatywnej AI to kropla w oceanie
Autorzy pracy ostrzegają, że napływ treści generowanych przez sztuczną inteligencję może ułatwić to, co nazywają "hakowaniem dowodów", strategiczną manipulacją bazą wiedzy społeczeństwa. Rozwój ten stanowi potencjalne zagrożenie dla zaufania publicznego do nauki i wiarygodności podejmowania decyzji opartych na dowodach.
Haider udzieliła wypowiedzi dla amerykańskiego Newsweeka, w której zwróciła uwagę na fakt, że znaczna część analizowanych przez naukowców artykułów naukowych była łatwa do znalezienia, ponieważ zawierały oczywiste zwroty wspólne dla czatbotów, ale "kilka z nich pochodziło z dość ugruntowanych czasopism, które [służą jako wyznacznik dla badaczy, aby] sprawdzić, czy czasopismo ma odpowiednie zabezpieczenia i wzajemną weryfikację".
Kolejną niespodzianką, lub prawdopodobnie sygnałem ostrzegawczym, było to, jak szybko i szeroko rozprzestrzeniły się one w infrastrukturze komunikacji badawczej. Kopie znajdowały się w mediach społecznościowych, repozytoriach badawczych, archiwach itp. Nawet jeśli zostaną usunięte ze źródła, pozostaną online i Google Scholar je znajdzie
Według Haider praca jej zespołu pokazuje jedynie "szczyt góry lodowej" i zjawisko niedeklarowanego, "oszukańczego" użycia generatywnej AI może mieć znacznie szerszy wymiar, niż jest to możliwe do przeanalizowania.
Skala problemu jest bardzo trudna do oszacowania i nie przeprowadziliśmy żadnych obliczeń. Według innych badań, nawet 1 procent publikacji w 2023 roku mógł wykorzystywać ChatGPT.
Może zainteresować cię także: