AI miała ułatwić pracę w szpitalu. Zaczęła wymyślać bzdury o pacjentach

Model OpenAI Whisper to ulubione narzędzie każdej firmy i instytucji potrzebującej przetwarzania mowy na tekst. Jednak mało która z nich orientuje się, jak bardzo Whisper halucynuje - wymyśla fakty. Sztuczna inteligencja pokaz swoich umiejętności daje także w placówkach medycznych.

Malwina Kuśmierek

03.11.2024 07:20

AI miała ułatwić pracę w szpitalu. Zaczęła wymyślać bzdury o pacjentach

REKLAMA

Choć OpenAI znamy najlepiej z czatbota ChatGPT i dużych modeli językowych sztucznej inteligencji z rodziny GPT, to firma posiada w swojej ofercie jeszcze kilka innych modeli AI. W tym model Whisper rozpoznający mowę i przetwarzający ją na tekst. Whisper jest nieco mniej znany w internecie, a to za sprawą faktu, że dostępny jest jedynie jako API - Whisper wykorzystuje się do tworzenia aplikacji.

Taką aplikacją może być aplikacja Telefon z Apple Intelligence, która pozwala nagrywać i przeprowadzać transkrypcję rozmów. Może być nią także aplikacja dla szpitali, która miała pomóc lekarzom poprzez nagrywanie i transkrypcję rozmów z pacjentami, a w niejednym przypadku dopisała kilka zdań do wypowiedzi pacjentów.

REKLAMA

Whisper to cudowne dziecko OpenAI, które halucynuje jak po grzybach

Reporterzy Associated Press przeprowadzili wywiady dotyczące efektywności Whisper z programistami, twórcami oprogramowania oraz badaczami. Według nich, choć Whisper jest przydatny, boryka się z tymi samymi problemami co dobrze nam znane czatboty: tworząc transkrypcje, halucynuje - wymyśla fakty i z przekonaniem przedstawia je jako prawdę. Ponadto według ekspertów Whisper ma tendencję do "stosowania retoryki przemocowej", "rasistowskich komentarzy" i "wymyślania zabiegów medycznych".

Ta ostatnia tendencja jest najbardziej niepokojąca, gdyż Whisper jest częścią oprogramowania dla szpitali i placówek medycznych, Nabla, które "zmniejsza ilość czasu, jaką lekarz musi poświęcić na pisanie notatek czy wypełnianie dokumentów". Sami twórcy narzędzia przyznają, że Nabla - ze względu na wykorzystanie Whisper - ma tendencje do halucynacji. Mimo oprogramowanie zostało wykorzystane już przy ok. 7 milionach wizyt u lekarzy z całego świata. Niemożliwym jest sprawdzenie skali halucynacji Nabla, gdyż według deklaracji narzędzie ze względów bezpieczeństwa "usuwa nagrania audio od razu po dokonaniu transkrypcji".

Associated Press skontaktowało się z badaczem z Uniwersytetu Michigan, który przekazał, że z 10 transkrypcji audio jakie Whisper wygenerował z nagrań audio spotkań publicznych, w aż ośmiu naukowiec znalazł halucynacje. Z kolei inżynier uczenia maszynowego przekazał reporterom, że odkrył halucynacje w około połowie z ponad 100 godzin transkrypcji Whisper, które przeanalizował. Natomiast trzeci rozmówca-programista powiedział, że odkrył halucynacje w prawie każdej z 26 tys. transkrypcji, które stworzył za pomocą Whisper. Problem występuje także w przypadku krótkich nagrań audio w wysokiej jakości, które w teorii nie powinny stanowić problemu dla AI.

Podczas gdy większość programistów zakłada, że narzędzia do transkrypcji źle piszą słowa lub popełniają inne błędy, inżynierowie i badacze stwierdzili, że nigdy nie widzieli innego narzędzia do transkrypcji opartego na sztucznej inteligencji, które miałoby takie problemy z halucynacjami jak Whisper

Whisper fantazjuje w każdej możliwej sytuacji

Przykłady halucynacji Whisper i dopisywania własnych fantazji do wypowiedzi pokazała Allison Koenecke, adiunkt na Wydziale Informatyki Uniwersytetu Cornell. Koenecke była członkiem zespołu badawczego analizującego halucynacje Whisper. Model AI ma tendencję do dopisywania na końcu transkrypcji nigdy niewypowiedzianych zdań, w tym np. informacje o nigdy nieprzyjmowanych lekach.

Z kolei w przypadku transkrypcji, w której osoba mówiąca opowiedziała, że "chłopiec miał wziąć parasol", Whisper dopisał cztery zdania opisujące akt zabójstwa - aczkolwiek opisujący w niezbyt zgrabny językowo sposób. Ponadto badaczom udało się zarejestrować przypadki, gdzie Whisper na końcu wypowiedzi dodawał "mowę Youtuberów" ("to zobaczymy w następnym odcinku", "dzięki za obejrzenie" czy "polub i zasubskrybuj") czy linki do stron ("aby dowiedzieć się więcej, odwiedź SnowBibbleDog.com").

Rzecznik OpenAI przekazał Associated Press, że "firma nieustannie bada, jak zmniejszyć halucynacje" i docenił odkrycia naukowców, dodając, że "OpenAI przy aktualizowaniu modeli uwzględnia wszystkie opinie".

Z kolei jak powiedział William Saunders, naukowiec, który w lutym zakończył współpracę z OpenAI, halucynacje Whisper "są do naprawienia", pod warunkiem że OpenAI "potraktuje problem priorytetowo".