Dlaczego czatboty kłamią? Ekspert mówi, jak działa ChatGPT i dlaczego świat właśnie zmienił się nie do poznania
ChatGPT to twarz potencjalnej rewolucji. Sztuczna inteligencja, bezbłędnie wychwytująca z tekstowej konwersacji intencje użytkownika, może fundamentalnie zmienić sposób, w jaki wchodzimy w interakcję z komputerami i elektroniką. Jak to działa i dlaczego często zdarza się jej wariować? Co przyniesie przyszłość? Postanowiliśmy się dowiedzieć.
Silver Bullet Solutions z powodzeniem tworzy rozwiązania dla biznesu, wykorzystujące sztuczną inteligencję w zakresie przetwarzania języka naturalnego. Korzysta między innymi z technologii opartej na GPT, którą wykorzystuje też OpenAI. Ma już klientów, a z jednym z wiodących operatorów komórkowych w Polsce testuje właśnie inteligentnego czatbota, który będzie pomagał konsultantom w rozmowach z klientami.
Mając specjalistów od SI niemalże pod nosem (Silver Bullet Solutions ma biuro w Warszawie), grzechem byłoby nie skorzystać z okazji i nie zapytać o szczegóły techniczne tych rozwiązań.
Udało mi się spotkać z dr Tomaszem Ludziejewskim, który się specjalizuje w omawianym zagadnieniu. Pełni rolę Chief Data Scientist w Silver Bullet Sollutions. Jest pasjonatem i miłośnikiem sztucznej inteligencji oraz uczenia maszynowego, zaangażowanym w przetwarzanie języka naturalnego i lingwistykę obliczeniową przy pomocy głębokich sieci neuronowych oraz modeli języka w architekturze Transformers. W przeszłości związany był również zawodowo z Instytutem Problemów Jądrowych w Świerku.
Chciałbym napisać, że niniejszy tekst to synteza głębokiego researchu dziennikarskiego, byłoby to jednak nieuczciwe. Mój rozmówca wiedzą i umiejętnością jej przekazywania znacząco przewyższył oczekiwania i właściwie cały materiał, jaki znajduje się poniżej, to wypowiedzi specjalisty, czyli dr Ludziejewskiego. Moja rola ograniczyła się to zadawania pytań i późniejszej redakcji wypowiedzi.
Inteligentne czatboty ChatGPT - czy to rewolucja, czy raczej efekt powolnej ewolucji?
To dramatyczny przełom. Do tej pory tego typu technologie najczęściej korzystały z prostych systemów regułowych, prostej analizy tekstu i szablonów. Tak działa grubo ponad 90 proc. czatbotów na stronach internetowych. To wręcz nie ma nic wspólnego ze sztuczną inteligencją, to system warunków "jeśli pytanie A, to odpowiedź B".
Świat się zmienił w momencie, kiedy zaprojektowano pierwsze głębokie sieci neuronowe. W przełomowym 2017 r. pojawiły się pierwsze prace naukowe, które opisywały jak w skuteczny sposób modelować język przy pomocy architektur Transformers. To modelowanie, gdzie głęboka sieć neuronowa potrafi sama nauczyć się dwóch rzeczy: relacji pomiędzy słowami i tego, że te same słowa mogą opisywać różne rzeczy - oraz gramatyki języka.
Cechą wszystkich sieci jest to, że są stochastyczne. W danej sytuacji dialogowej nigdy nie jest tak, że ta siec jest powtarzalna. Zawsze generuje inny wariant odpowiedzi, choć oczywiście znaczeniowo podobny. Taka sieć uczy się w specyficzny sposób. Potrafi na podstawie jakiegoś fragmentu tekstu wygenerować sekwencję, ciąg dalszy.
ChatGPT od OpenAI też ten mechanizm wykorzystuje, choć ma też wiele innych elementów, dzięki którym działa tak dobrze. Ta konkretna sieć była również uczona na podstawie ocen rzeczywistych dialogów z człowiekiem, przez tak zwane uczenie ze wzmocnieniem. Czyli wspomagane wspomnianymi ocenami. Więc tak, to przełom fundamentalny w przetwarzaniu języka. I tak, świat się właśnie dramatycznie zmienił.
Polska język trudna. Czy wielojęzyczność to problem dla czatbota?
Są dwa podejścia, na dziś nie wiemy które jest lepsze. Można uczyć sieć na tekstach, które pochodzą z wielu języków. Szyk słów czy logika wypowiedzi w różnych językach bywają inne, ale idee kryjące się za tym są podobne. Fundamentalne relacje między pojęciami zostają zachowane, niezależnie od języka.
Okazuje się, że jeśli mamy tekst źródłowy, na którym taka sieć się uczy, to nawet jeśli ma opisane pojęcia w jednym języku, to ta potrafi przenieść koncepcję z jednego języka na drugi. Czyli mając mały zbiór egzotycznych danych w danej dziedzinie, warto uczyć sieci w tym podejściu, bo - na przykład - publikacji naukowych w języku polskim jest relatywnie mało. Więc można nauczyć danego konceptu w języku polskim, a następnie douczyć model z tej dziedziny publikacjami w innym języku. To jednak oznacza, że mamy większą przestrzeń pojęć i wymagane jest mapowanie słownikowe, co stanowi dodatkową pracę i zwiększa koszt operacji sieci.
Drugie podejście, jeśli produkt ma służyć do konkretnego celu, to uczenie w jednym języku. Problem w tym, że jest to zasobożerne, a przede wszystkim wymaga dużej ilości danych. Modele językowe dla danego języka zazwyczaj są produkowane przez duże organizacje, rządowe lub prywatne. Te upubliczniają ogólny model, w tym w Polsce, przez Państwowy Instytut Badawczy Przetwarzania Informacji. Oni byli w stanie w przeciągu roku opracować i upublicznić generyczne modele języka polskiego w kilku różnych architekturach.
To są modele, które opisują przestrzeń ogólną. Są uczone na dwóch źródłach: na rzeczach pokroju Wikipedii oraz na czymś, co się nazywa Narodowy Korpus Języka Polskiego, czyli książki i publikacje z różnych dziedzin, w tym też wpisy z forów internetowych czy archiwa wypowiedzi posłów w Sejmie. To pozwala stworzyć model ogólny, który nie ma wiedzy specjalistycznej.
Dobrym przykładem jest czat dla operatora komórkowego, czyli rozwiązanie, które oferuje Silver Bullet Solutions. Musi dostarczyć model, który rozumie specyfikę tego, co oferuje klient. Są poszczególne produkty, jest szczególny proces biznesowy, są szczególne pojęcia. Model ogólny, widząc pojęcie "taryfa", prawdopodobnie będzie mu się to kojarzyło z taksówką i z samochodem, a nie z cennikiem operatora. Najpowszechniejszym podejściem jest więc wykorzystanie gotowego modelu wytrenowanego na bardzo szerokiej przestrzeni tekstów, a później dostosowanie go do specyficznej tematyki.
To coś jak pracownik pracujący na infolinii. Operator komórkowy może przeszkolić go ze swojej oferty, specyfiki produktów i usług. Ale przecież nie szkoli go z umiejętności posługiwania się językiem czy z podstaw zdolności konwersacyjnych.
Kto może stawić czoła gigantom IT, takim jak Microsoft, Meta czy Google?
To jest problem, i to duży. Modele, które sprawują się dobrze w przestrzeni otwartej i dialogowej, one wymagają gigantycznych zasobów obliczeniowych. Same te obliczenia są specyficzne, bo ich nie prowadzi się na standardowych procesorach, a na układach graficznych mających świetną wydajność na dużych obiektach matematycznych. Chodzi o Tensory. Sam model języka jest modelem tensorowym.
By wytworzyć model języka, który rozumie wszystkie dane, które są dostępne w Internecie, wymaga to terabajtów danych, które następnie muszą być przetworzone przez infrastrukturę obliczeniową. To daje OpenAI dużą przewagę, że może działać na infrastrukturze Microsoftu. To działa na wielkich centrach obliczeniowych z milionami specjalnie przygotowanych układów graficznych. To zużywa ogromne ilości energii i samo w sobie jest kosztowne. W związku z tym bardzo duże modele mogą być operowane efektywnie przez bardzo niewielką liczbę firm.
Na szczęście z historii powstawania takich firm, jak OpenAI, mamy pewien efekt uboczny. Te firmy nie pokazują wszystkiego, ale publikują wyniki swoich prac naukowych i udostępniają część swoich modeli bezpłatnie. Tym niemniej trzeba mieć niezwykły kapitał, by prowadzić rzeczywiste badania naukowe oraz by weryfikować prace teoretyczne przez modelowanie i badanie tych modeli w działaniu. Potrzeba też ogromnej ilości danych, do których takie firmy, jak Google czy Microsoft mają bezprecedensowy dostęp.
Czy prawo nadąża za czatbotami? Czy firmy tworzące czatboty trenują ich na prywatnych danych internautów?
Utrwalanie wizerunku nie jest zabronione, zabronione jest jego publikowanie. Z tego korzystają giganci. Dane pozyskane w sposób wątpliwie etyczny nie są potem publikowane na nowo. SI nauczona malowania na obrazkach chronionych prawem autorskim ich nie plagiatuje, a tworzy na ich podstawie nowe.
Nie ma żadnego dowodu na to, by najwięksi dostawcy usług mailowych korzystali z treści maili do szkolenia swoich SI. Można jednak być podejrzliwym, bo byłoby to bardzo użyteczne dla tych firm, a bardzo trudno takie działanie udowodnić. Natomiast te modele potem przecież nie publikują tych maili, nie czyta ich też człowiek.
Trudno niestety wykluczyć, że żaden gigant nie używa do szkoleń prywatnej korespondencji swoich użytkowników. To wątpliwe etyczne i zapewnia tym firmom ogromną przewagę. Ale też to nie jest tak, że jak ktoś podejrzy ów działający model, to znajdzie te maile. Na szczęście to tak nie działa, są one materiałem do nauki języka i zależności między słowami i pojęciami.
Co jest najtrudniejsze w budowaniu czatbota? Czy każdy z dobrym pomysłem może zbudować drugie OpenAI?
Dla firm takiej jak Silver Bullet Solutions, budowanie modelu od zera w obliczu potęgi gigantów IT staje się nieopłacalne. Mój rozmówca przekonuje, że jego firma dałaby radę, ale byłoby to finansowo wątpliwe. Silver Bullet Solutions wykorzystuje zamiast tego częściowo gotowy model i stosuje metodę transfer learningu. Czyli szkoli ten model na danych zapewnionych przez klienta. Jeżeli chce wytrenować maszynę do czatów, to bierze 10 mln rekordów czatów i przy pomocy transfer learningu uczy SI z wiedzą ogólną, że w tej konkretnej organizacji obowiązują konkretne procedury. Że obowiązują takie pojęcia, które mają takie a takie znaczenie.
Warto podkreślić, że istnieje pewna segmentacja modeli, jeśli chodzi o ich wielkość. Takie firmy, jak Silver Bullet Solutions, są w stanie posiadać infrastrukturę, która modeluje procesy w głębokiej sieci neuronowej, która ma poniżej miliarda parametrów, i który nazywa się GPT-2. To co jest używane przez duże korporacje, to GPT-3, GPT-3.5 i GPT-4. One w gruncie rzeczy koncepcyjnie niczym się nie różnią, poza wielkością. Każdy kolejny model jest kilkaset razy większy, koszt uczenia sieci rośnie przy tym nie liniowo, a kwadratowo.
Na szczęście można na to patrzeć i z drugiej strony. W konkretnych zastosowaniach nie muszą mieć całej wiedzy wszechświata, więc te tańsze modele sprawdzają się nieraz wręcz lepiej. Mniejsza sieć szybciej się uczy, co jest szansą dla takich firm, jak Silver Bullet Solutions. Dopóki nie działa się w bardzo szerokiej przestrzeni, a na przykład dla klienta zajmującego się leczeniem ludzi, prawem podatkowym czy świadczeniem usług telekomunikacyjnych, to wręcz małe modele i firmy mają przewagę.
Więc na szczęście to nie jest tak, że nie ma miejsca dla firm innych niż garstka gigantów Big Techu. Choć rzeczywiście w ramach modeli wszechwiedzących, takich jak ChatGPT, tylko one mogą coś takiego rozwijać.
ChatGPT potrafi przekonywująco kłamać. Dlaczego? To coś, jak człowiek po LSD.
Ten efekt nazywa się halucynowaniem sieci. Podstawą do istnienia systemu dialogowego, takiego jak ChatGPT, jest model języka. To model statystyczny. Czyli ChatGPT na podstawie zobaczenia danego pojęcia w wielu różnych kontekstach buduje sobie jakieś relacje, powiązania. Im więcej przykładów, tym lepiej potrafi dane pojęcie wyizolować i opisać.
Natomiast problem pojawia się wtedy, kiedy pytamy go o pojęcie, którego on nie miał szansy się nauczyć, więc nie miał szansy zidentyfikować go w tych danych uczących. Jeśli próbujemy zadać pytanie takiej sieci o pojęcie, której ona nie ma szansy znać, to ta próbuje budować relacje statystyczne do tego, co jest najbliższe semantycznie. Czyli zaczyna konfabulować, nieco jak ludzie po zażyciu LSD. Zaczyna się poruszać odległymi asocjacjami i ścieżkami. Efekt jest taki, że ta sieć potrafi rozmawiać przekonywająco, bo model języka ciągle działa. Buduje jednak odpowiedź halucynując, podając nieprawdziwe informacje.
Niektórzy zwracają uwagę, że ChatGPT niby można poprawiać. Można go przekonywać, że dwa plus dwa równa się pięć, a on w końcu przyzna rację, sprawiając wrażenie jakby się uczył. To jednak celowy zabieg OpenAI, by rozmowa z ChatGPT nie została negatywnie odebrana przez użytkownika.
Jak nauczyć czatbota moralności i etyki?
To można zrobić na dwa sposoby. Po pierwsze, stosunkowo łatwo można usunąć z danych jakimi karmiony jest ogólny model czatbota treści wrażliwe, jak wulgaryzmy czy wypowiedzi obraźliwie. Tak zresztą postąpił OpenAI. Silver Bullet Solutions też musi o to dbać. Szkoląc bota dla operatora komórkowego jest on uczony na dialogach konsultantów z klientami. Nietrudno się domyślić, że zdarzają się tam koszmarne wiązanki. Należy nauczyć więc bota, jak powinien wypowiadać się konsultant.
Kiedy jednak się okaże, że sieć jakimś sposobem nauczyła się, dajmy na to, przekleństw i wykryto to już w funkcjonującym modelu, to też istnieją sposoby zabronienia używania danych pojęć czy konkretnych słów.
ChatGPT to imponująca aplikacja, ale to nadal tylko interfejs. Czy ktoś pracuje nad komputerem prawdziwie inteligentnym?
Z całą pewnością żaden z modeli GPT nie ma śladu świadomości czy emocji. Te sieci, o których mówimy, które są modelami języka, one są tylko uczone w podejściu statystycznym. Natomiast, żeby uwzględnić procesy, które mają coś wspólnego z ewolucją, ewolucyjnością, to uczenie musi zupełnie inaczej wyglądać. Musi to być uczenie z czynnikiem karania i nagradzania, albo czynnikiem, który znamy z historii wszechświata - czyli z ewolucją, która skutkuje tym, że jeśli zmiana dokonała się w poprawnym kierunku, to nagrodą jest przeżycie tego osobnika, w który mutacja nastąpiła we właściwą stronę. A jak w niewłaściwą, to występuje kara.
Faktycznie owa ewolucja w badaniach jest stymulowana. Były eksperymenty, w których budowano robota, nieco przypominającego żółwia. Ów robot ma tułów, ogon i ruchome kończyny. Nie wie jednak jak się poruszać, nie wie jak się nimi posługiwać. Robot ma za zadanie dotrzeć do wskazanego punktu nie mając pojęcia jak używać swojego ciała. Ma sam wykalkulować optymalne ruchy, by się przemieścić do celu. I faktycznie, z czasem sam dochodzi do tego przez ewolucję wynikającą z wielu prób jak się biega.
Jak będą wyglądać czatboty i informatyka w nieodległej przyszłości?
Co będą robić giganci ze swoimi modelami trudno przewidzieć. Mniejsze firmy mają jednak pole do rozwoju. Operują na mniejszych sieciach, co jest zarówno ich słabością, jak i siłą. Są bowiem w stanie stworzyć wirtualnych specjalistów, biegłych w danej domenie językowo-tematycznej.
Firma zatrudniająca doktora Ludziejewskego jest w stanie już dzisiaj oferować systemy, które będą wspomagać konsultanta po to, żeby nie musiał kazać klientowi czekać. SI wpłynie też korzystnie na koszty szkoleń specjalistów. Trzymając się przykładu konsultanta u operatora telekomunikacyjnego, czatbot może w toku rozmowy pomagać temu konsultantowi, podsuwając mu podpowiedzi i procedury, które mogą mu być potrzebne, by rozwiązać problem klienta.
To jednak również wskazuje na to, że SI w przewidywalnej przyszłości będzie narzędziem, a nie czymś co zastąpi człowieka. Czatbot projektu Silver Bullet Solutions podsuwa konsultantowi nie jedną, a kilka możliwych odpowiedzi, bo nie ma i nie może mieć dostępu do wszystkich danych. Przykładowo, klient prosi o prolongatę płatności. To do konsultanta należy decyzja, na bazie przeszłych relacji z tym klientem, czy takowej zgody udzielić, czy też nie, bo notorycznie zalega z płatnościami.
Trudno się też nie zgodzić z tym, co przewiduje Harari, chętnie przywoływany przez mojego rozmówcę. Ów autor wiele lat temu napisał, że sztuczna inteligencja będzie zdominowana przez rozwiązania hybrydowe, czyli współpracę człowieka z ową sztuczną inteligencją. SI ma wspierać człowieka, nie go zastępować.
Czyli co, wszyscy po prostu będziemy mieli więcej wolnego czasu?
Za każdym razem tak się mówi, po czym tego wolnego czasu mamy coraz mniej. Nadal będziemy musieli podejmować decyzje. Oddzielnym, filozoficznym problemem jest to, czy rzeczywiście wszyscy współobywatele, wszyscy przedstawiciele naszego gatunku są predysponowani do tego, żeby być podejmującymi decyzje, nad czym zastanawiał się mój rozmówca.
I faktycznie, jeżeli dojdziemy do takiego momentu, kiedy w zasadzie wszystkie zadania, które mają charakter mechaniczny, będą zrobotyzowane, to wtedy będziemy wszyscy decydentami. Czy jesteśmy na to gotowi? Czy jest tyle decyzji do podjęcia w ogóle? Tego jeszcze nie wiemy, choć prawdopodobnie się o tym przekonamy.