Powstaje "polski ChatGPT". Już teraz czyta ten tekst i zaraz będzie pisać jak jego autor

Modele językowe same z siebie niczego nie tworzą, tylko z kawałeczków tekstów sklejają pewną całość. Pojawia się więc pytanie, kto tu jest autorem – mówi prof. Maciej Piasecki z Katedry Sztucznej Inteligencji Politechniki Wrocławskiej, który jest koordynatorem konsorcjum naukowego PLLuM mającego stworzyć "polski chatGPT". – Będziemy się starali, aby nie doszło do oskarżeń o łamanie praw autorskich. 

12.01.2024 05.00
fot. shutterstock/cybermagician

Od ponad roku wielkie generatywne modele językowe (LLMs) nie schodzą z nagłówków zarówno światowych, jak i krajowych mediów. Miliony użytkowników Internetu na całym globie testują znane modele jak ChatGPT stworzony przez Open AI czy Bard od Google. I choć największe technologiczne korporacje prześcigają się w budowie i ulepszaniu sztucznej inteligencji, to żadna z nich nie zachwyca ani wiedzą z polskojęzycznych źródeł ani też samym sposobem używania naszego ojczystego języka. A do tego lepsze ich wersje są nie tylko płatne, ale i zamknięte dla badaczy czy firm.

To chcą zmienić polscy naukowcy, którzy stworzą własną sztuczną inteligencję "wychowując" w oparciu o głównie polskojęzyczne treści i źródła wiedzy. Pracują oni nad otwartym, darmowym modelem, co ma przynieść korzyści nie tylko nauce, ale także i gospodarce. Mowa o konsorcjum PLLuM (Polish Large Language Universal Model) złożonym z sześciu wiodących jednostek naukowych w Polsce.

Wszystko przy zachowaniu reprezentatywności, przejrzystości i sprawiedliwości danych. 

To ostatnie jest o tyle ważne, że wykorzystanie danych, na które składają się choćby materiały objęte prawami autorskimi, budzi coraz większe kontrowersje. Głośno było choćby o pozwie New York Time’sa wytoczonemu przeciwko firmom OpenAI i Microsoft, który ma zawierać tysiące stron dowodów na to, że ChatGPT i Microsoft Bing zostały zbudowane zbudowana przy bezprawnym wykorzystaniu treści pisanych przez autorów gazety. Są tam też dowody, że modele plagiatują treści przepisując słowo w słowo fragmenty artykułów. 

Jak twórcy "polskiej wersji ChatGPT" chcą uniknąć takich oskarżeń i dlaczego w ogóle potrzebujemy modelu językowego w języku polskim oraz jak może być on wykorzystany w biznesie? O tym rozmawiamy z prof. Maciejem Piaseckim z Katedry Sztucznej Inteligencji Politechniki Wrocławskiej, który jest koordynatorem konsorcjum naukowego PLLuM.

Profesor Maciej Piasecki z Katedry Sztucznej Inteligencji Politechniki Wrocławskiej fot. archiwum prywatne
Profesor Maciej Piasecki z Katedry Sztucznej Inteligencji Politechniki Wrocławskiej fot. archiwum prywatne

Marek Szymaniak: Państwa projekt został określony szumnie polskim ChatGPT. Czy go faktycznie potrzebujemy?

Prof. Maciej Piasecki: Zacznijmy od tego, że nie jest to do końca właściwa nazwa. To, co chcemy zbudować to bardzo duży model językowy, zwany generatywnym. Czyli takim, który potrafi na podstawie danej sekwencji słów czy zdań generować najbardziej prawdopodobną kontynuację podanego zapytania. Dopiero na podstawie tego modelu, stworzymy model dialogowy, który w pewnym sensie będzie analogiczny do ChataGPT, bo będziemy mogli zadawać pytania i uzyskać odpowiedzi. 

To, o czym Pan mówi ma swoją nazwę. PLLuM, czyli Polish Large Language Universal Model. Po co nam polski model? 

Jest kilka przyczyn. Po pierwsze dlatego, że najbardziej znane modele komercyjne są zamknięte. Nie możemy z nich swobodnie korzystać. Nie możemy do nich zajrzeć, więc nie wiemy co w nich jest, na jakich danych zostały zbudowane. Ani też ich dotrenować, aby nam lepiej służyły. Nasz będzie otwarty, w przeciwieństwie do np. ChatuGPT, który w założeniu właśnie taki miał być, ale ostatecznie jego nowa wersja jest płatna. 

Po drugie te modele powstawały na danych, w których prawdopodobnie nie było zbyt wiele materiałów w języku polskim. Co też widać, kiedy się z nich korzysta. Tworząc nasz model będziemy mieli kontrolę nad tym, jaką polszczyzną będzie się posługiwał nasz model. 

Po trzecie, co wynika z drugiego, te modele mają niewielką wiedzę dotyczącą historii, czy kultury naszego kraju. Nierzadko bywa więc, że szukając w nich wiedzy, modele przekręcają, albo wprost kłamią, co nazywamy halucynacją. 

Po czwarte dobrze mieć swój, niezależny model. Taki, którym będziemy mogli się swobodnie posługiwać. Taki, który będzie silnikiem mającym tysiące zastosowań. Nie tylko naukowych, ale i komercyjnych. Taki silnik może być fundamentem, który może być "doszkolony" w danym kierunku i wykorzystany jako sztuczna inteligencja w firmach czy instytucjach publicznych. 

Wreszcie po piąte: zyskają użytkownicy. Dziś wpisując cokolwiek w taki ChatGPT tracimy to, bo wszystko co tam wpiszemy staje się własnością OpenAI. 

Jeśli wrzucę tam swój artykuł i poproszę, aby wymyślił do niego tytuł, to go stracę? 

Tak, jeśli korzysta pan na darmowej licencji. Wtedy wszystko co wpisze pan do chata przestaje być pana własnością. Ale to nie jest nic odkrywczego. Stoi to jak byk w licencji, tylko trzeba ją przeczytać, ale mało kto to robi. 

Wyczytałem, że PLLuM ma "myśleć" po polsku. Co to znaczy? Będzie gościnny, zacznie narzekać, a potem kombinować unikając podatków jak stereotypowi Polacy?

Muszę Pana rozczarować. Myśleć nie będzie ani po polsku ani w żadnym języku. Jeszcze nie teraz. 

O, szkoda!

Raczej: na szczęście!

To będzie narzędzie do analizowania i generowania treści. Jednak nie po to, aby tworzyć sztuczne artykuły, lecz aby zapewnić ludzki, bardziej naturalny sposób komunikacji i opowiadania o świecie. A wszystko w języku polski, który możemy dotrenować w takim kierunku jak nam odpowiada. Tak, aby posługiwał się takim stylem jakiego akurat potrzebujemy np. specjalistycznym albo potocznym.

Będzie można przestawić wajchę i dać więcej Słowackiego a mniej Mickiewicza?

Albo zmniejszyć ilość Sienkiewicza. Kiedy w 2001 roku tworzyłem modele językowe na potrzeby tłumaczenia maszynowego był taki moment, że musieliśmy dorzucić trochę innych tekstów, żeby nie tłumaczył w stylu: waść jest szalony… (śmiech)

Mówi Pan, że wiedza będzie wydobywana z "jakiś zasobów". Co to za materiały? Podobno mają już Państwo 300 gigabajtów czystego tekstu.

Mamy już tego znacznie więcej. Obecnie około 4 terabajtów. Ale ile jest danych dobrych i wartościowych? To dopiero się okaże. Przed nami żmudny proces selekcji, czyszczenia zbioru danych. Szalenie ważna jest tzw. czystość, abyśmy wiedzieli, co wkładamy do modelu. Nie może być np. duplikatów, a to spory problem, bo jak się powieli w trenowaniu modelu tekst, to w naturalny sposób będzie on bardziej prawdopodobną odpowiedzią. Musimy też usunąć teksty sztucznie generowane, którymi teraz zalewany jest internet. A do tego musimy znać źródła pochodzenia tych materiałów. Dobór tekstów jest więc szalenie ważny.

fot. shutterstock/designium
fot. shutterstock/designium

Ale co to są za materiały? Moje artykuły dostępne za darmo w "Magazynie Spider’sWeb+" albo książki w PDF, które ktoś wrzucił na Chomikuj też zostaną wykorzystane?

Twórcy tych wielkich, komercyjnych modeli tak właśnie robią. Po prostu zagarniają wszystko, co udało się im zebrać z Internetu.

A Wy?

My chcemy wykorzystać to, co da się ściągnąć z Internetu, ale z poszanowaniem praw autorskich. To duży problem, bo wszystko co jest publikowane w Internecie bez oznaczenia, że jest to na licencji otwartej jest według polskiego prawa objęte licencją prywatną. A więc wykorzystamy to, co jest otwarte, czyli od Wikipedii począwszy, przez wszystkie otwarte książki, podręczniki, dokumenty, raporty, zapisy prac Sejmu i tak dalej.

Wydawcy pewnie patrzą na te działania podejrzliwie.

Przeciwnie. Z niektórymi nawiązaliśmy kontakt. Planujemy współpracę. Na przykład koncern Agora deklarował, że dostarczą nam materiały do budowy modelu. Myślę, że uda się przekonać też inne podmioty, aby nas wsparły, bo to w interesie nas wszystkich. Po zebraniu dobrych materiałów powstanie dobry model, na podstawie którego będzie można tworzyć już wyspecjalizowane systemy.

W interesie wszystkich? Jaki interes ma np. wydawnictwo książkowe czy autor, którego książkę wykorzystacie.

Po pierwsze nie potrzebujemy całych książek. Wystarczą fragmenty, bo potrzebujemy przykłady użycia języka. Jak Pan zajrzy do Google Books to tam takie fragmenty są i Google w swoich modelach pewnie te materiały wykorzystał. To paradoks, że w Polsce mnożymy wymogi prawne dla dostępności materiałów, kiedy Google po prostu jedzie, bierze i nad niczym się nie zastanawia.

Po drugie, jeśli jakaś firma lub kilka (w porozumieniu) dostarczą materiałów, wesprą powstanie modelu, to będą mogły później "dotrenować" ten model w oparciu o własne źródła, dane, dokumenty, aby stworzyć wyspecjalizowaną wersję na swoje potrzeby i to już na licencji zamkniętej. Koszt takiego wyszkolenia będzie dużo mniejszy niż budowanie go od podstaw.

Chciałbym zrozumieć, jakie mogą być jego zastosowania. Czy koncern Agora, przypomnijmy wydawca Gazety Wyborczej i właściciel wydawnictwa książkowego, odda trochę materiałów swoich dziennikarzy, aby stworzyć model, który nauczy się pisać jak oni i potem stracą oni pracę? Na taki krok zdecydował się już Axel Springer wydawca m.in. dziennika "Bild", którego szef Matthias Dopfner zapowiedział pracownikom, że zostaną zastąpieni przez sztuczną inteligencję. 

A tego to już nie wiem. Nie wiem, jakie plany i motywacje może mieć koncern Agora czy inna firma. To już kwestia tego, jaką ma strategię i jak będzie chciała dany model zastosować. Dla mnie jest on narzędziem, które jak mówiłem, może lepiej wydobywać wiedzę, wyszukiwać treść, sensownie odpowiadać na pytania…

Ale też generować treści.

Oczywiście. I to jest problem etyczny, ale też praktyczny. Bo z jednej strony w tych sztucznie generowanych tekstach trudno oddzielić prawdę od fikcji. Osiągamy moment, o którym pisał Stanisław Lem, czyli zanurzenia się w świecie, gdzie trudno odróżnić rzeczywistość od iluzji.

Nie mniej ważniejszy jest problem praw autorskich. Kilka dni temu "The New York Times" złożył pozew przeciwko firmom OpenAI i Microsoft oskarżając je o łamanie praw autorskich. Pozew ma zawierać tysiące stron dowodów na to, że ChatGPT i Microsoft Bing zostały zbudowane przy wykorzystaniu bez zgody treści pisanych przez autorów gazety. Są tam też dowody, że modele plagiatują treści przepisując słowo w słowo fragmenty artykułów. Słowem: czyste złodziejstwo. Państwo nie boją się takich oskarżeń?

Będziemy się starali, aby do nich nie doszło. Ale jeśli przyjąć najbardziej restrykcyjne podejście, aby na każdy kawałek tekstu mieć licencję, to może być rzeczywiście trudno. A więc musimy znaleźć balans. Musimy działać w granicach zdrowego rozsądku, bo istotny jest cel. 

Oczywiście wydawca dziennika "New York Times" ma rację pozywając twórców modeli językowych, bo one same z siebie nic nie tworzą, tylko z kawałeczków tekstów sklejają pewną całość. I bywa tak, że jak algorytm znajdzie dobry fragment, pasujący mu do odpowiedzi, to weźmie go w całości, może z drobnymi zmianami. Pojawia się więc pytanie, kto tu jest autorem.

Jak to kto? Autor źródłowego materiału, który zostaje okradziony. Czy w takim modelu jak Wasz nie powinno być tak, że najeżdżam na fragment tekstu i widzę skąd pochodzi, a najlepiej dostaję link do źródła?

To nie takie oczywiste, bo to maszynka w sposób losowy łączy ze sobą fragmenty generując sekwencje słów. W naszym projekcie mamy konkretne zbiory danych. To nie jest czarna skrzynka, w której nie wiemy co się znajduje, bo mamy nad nią kontrolę. Wiemy skąd model wyszukał jaką informację. Ale gdy jest używany to robi coś w rodzaju streszczenia czy syntetycznego opracowania na podstawie zebranych treści. Wtedy wiadomo do końca, skąd co pochodzi. Aczkolwiek to nie rozwiązuje problemu.

Wrócę do legalności zebranych danych. Jesteście pewni, że u nie powtórzy się historia z "New York Times’a"? Uruchomicie model, a za chwilę wydawnictwa zaczną rzucać pozwami.

Dlatego jednym z etapów pracy jest analiza prawna, na którą kładziemy duży nacisk, szczególnie w kontekście istniejących i właśnie powstających regulacji unijnych, np. AI Act. W tym ostatnim przypadku, to niestety musimy polegać na przewidywaniach, bo konkretny, ostateczny jego kształt nie jest jeszcze znany. Widzimy już jednak dobrze kierunki, zarysy rozwiązań. Jednym z naszych partnerów jest NASK, który ma duże doświadczenie w tym zakresie. Poza tym, jak mówiłem, będziemy starali się mieć kontrolę nad wszystkimi tekstami. Oczywiście nie jest to proste przy materiałach liczących kilkanaście miliardów słów.

250 stronicowa książka to około 70 tys. słów.

No właśnie, a tutaj mówimy o miliardach. Ręczne przejrzenie wszystkiego jest prawie niemożliwe. Dlatego mogą zdarzyć się sytuacje, że ktoś zgłosi pretensje. Mamy przewidziany mechanizm reakcji, zgłoszenia takiej sytuacji. Oczywiście to ostateczne rozwiązanie. Nie chcemy tak załatwić tej sprawy. Dlatego podstawą będzie bardzo dobre przygotowanie i selekcja danych.

A to tylko jedno z wyzwań przy budowie takiego modelu. Podobno inne to wysokie rachunki za prąd.

Faktycznie koszty energii są wysokie. Trenowanie wymaga miesięcy ciągłej pracy, wykorzystania dużego komputera. Przewidzieliśmy na to milion złotych i mamy nadzieję, że na najbliższy rok wystarczy.

Ale wyzwaniem są też koszty pracy, bo musimy zatrudnić całą rzeszę specjalistów, którzy będą przygotowywać i przetwarzać dane. 

OpenAI po prostu outsourcingował taką pracę do biedniejszych krajów, co zresztą wiązało się ze skandalem, kiedy wyszło na jaw w jakich warunkach i za ile pracowali na jego rzecz ludzie.

Nie widzę nic złego w angażowaniu pracowników z krajów o niższym poziomie rozwoju. Oczywiście jeśli zapewni im się dobre warunki pracy. Ale my niestety nie możemy na żadne oddelegowanie pracy, bo potrzebujemy ludzi znających język polski. Tutaj polegamy na pracy najemnej pracowników z Polski.

Ale w trenowaniu PLLuM-a może pomóc każdy użytkownik internetu?

Tak, jesteśmy otwarcie na takie wsparcie w postaci dobrowolnego wolontariatu. Każda pomoc, przede wszystkim w zbieraniu danych, jest mile widziana. Niebawem będziemy mieli stronę www, gdzie będzie jasny kanał komunikacji. Ale zgłaszać można się przez stronę NASK-u, co już zrobiło ponad bardzo wiele osób.
Dysponują Państwo sprzętem wartym prawie 100 mln zł. Składa się na niego m.in. 300 kart graficznych H100 NVIDI-a, stosowanych do trenowania głębokich sieci neuronowych, ponad 30 petabajtów miejsca na dyskach twardych i petabajt pamięci RAM. To dużo? Wystarczy, aby konkurować z OpenAI?

Nie… choć oczywiście nikt poza OpenAI nie wie, ile wydali pieniędzy na sprzęt. Porównując zasoby, to sprzęt, który my mamy jest oczywiście mikroskopijny. Ale my też nie chcemy konkurować z OpenAI. To, czym dysponujemy to wystarczająco dużo, aby stworzyć użyteczny model podstawowy dla języka polskiego, który umożliwi szereg zastosowań.

A ile pieniędzy trzeba, żebyśmy konkurowali z największymi? Może naszą rozmowę przeczyta minister Krzysztof Gawkowski i sypnie kasą.

Zapewne potrzebowalibyśmy setek milionów euro, ale to nie ma sensu. Powtórzę: przy tym sprzęcie jesteśmy w stanie zbudować model porównywalny do ChatuGPT3,5 w języku polskim. Pozwoli nam to rozwinąć skrzydła w dziedzinie wytwarzania modeli językowych na najbliższe 2-3 lata. Dzięki temu będziemy mogli potem budować kolejne już wyspecjalizowane do konkretnych zadań modele.

Szwedzi wpuszczają AI do administracji publicznej i stworzyli taki wyspecjalizowany model tworząc swój urzędowy odpowiednik ChatGPT. Może i Wasz model mógłby zastąpić urzędników i obsługiwać petentów?

Nie, to niemożliwe i dobrze, że to niemożliwe. Powstające regulacje AI Act mówią o tym, że decyzje dotyczące ludzi nie mogą podejmować wyłącznie maszyny.

Ale mogą np. pomagać w obsłudze petentów w urzędach. Już dwa lata temu NCBiR zorganizował konkurs na stworzenie "asystenta petenta". Konkurs, który mój zespół wygrał.

Gratuluję, i co?

Nic, bo nie dostaliśmy pieniędzy. NCBiR się rozmyślił. Szkoda, bo kosztowało nas to dużo pieniędzy i ogrom energii, aby przygotować wniosek i wziąć udział w konkursie. A wszystko po to, aby zostało to zmarnowane.

Niemniej jest potrzeba, także zauważona przez poprzedni rząd już dwa lata temu, aby usprawnić dostęp do wiedzy, ulepszyć komunikację, wspomóc ludzi w orientowaniu się w przepisach.

Dziś często idziemy do urzędu i musimy stać w kolejce, żeby w ogóle czegokolwiek się dowiedzieć. A moglibyśmy porozmawiać z prostym botem, który nam to wszystko wyjaśni.

A do tego podpowie nam np. jakie dokumenty musimy przygotować, aby coś załatwić. To byłoby ogromne wsparcie urzędników w ich codziennej pracy, obsłudze dużej ilości spraw. Wiele czasu zajmuje im przecież choćby to, aby przekierować petenta do właściwego miejsca. Dzięki takim rozwiązaniom część osób byłaby kierowana od razu tam, gdzie trzeba, a do tego mając dobrze przygotowane i wypełnione dokumenty. Zyskaliby na tym zarówno petenci, jak i urzędnicy.

A co jeśli taki chat wprowadzi w błąd? Przecież sam Pan mówił, że modele potrafią halucynować, czyli zmyślać, gdy czegoś nie wiedzą…

Tutaj nie byłoby takiego ryzyka, bo w cyfrowym asystencie, który chcieliśmy przygotować odpowiedzi nie udzielałby model językowy, tylko interfejs przygotowany w oparciu o konkretne źródła np. regulamin, dokument, ustawę itd.

Pierwsza wersja PLLuM-a ma trafić do otwartych testów w pierwszej połowie 2024 roku. Zostało pół roku...

Już dziś wiemy, że będzie to raczej druga połowa roku. A to i tak szybki termin, możliwy tylko dlatego, że mamy wielu partnerów, którzy wnoszą ogrom wiedzy, umiejętności i zasobów. Jednak mimo to jest dość wymagający,

Rok w technologiach to mnóstwo czasu. Miniony stał pod znakiem rozwoju chatów w stylu GPT od OpenAI. Do gry weszły też kolejne firmy: Google, Meta, Microsoft. Co było dla pana największym zaskoczeniem?

To, że taką furorę zrobił ChatGPT, który wcale nie jest najlepszym modelem. Jest wręcz rozczarowujący pod względem konstrukcji. Zaskoczyło też, to że dało się to tak prosto zrobić. Wystarczyła prosta, brutalna wręcz metoda, czyli zapakowanie do środka ogromnej ilości. Siedzę w tej działce od 1993 roku, przez dziesiątki lat skonstruowaliśmy sprytne, ciekawe modele, oparte na wiedzy. A tutaj okazało się, że w pewnym sensie wystarczy duża moc obliczeniowa.

Z drugiej strony to, co im się udało, jest spektakularne. A jeszcze bardziej spektakularne jest to, że udaje im się to utrzymać już ponad rok, a ludzie mogą to za darmo testować. Nie wiem jakim cudem.

Niektórzy płacą…

Tak, ale trudno sobie wyobrazić, że to wystarcza na pokrycie kosztów. Może więc ciągle wydają pieniądze od inwestorów. Nie znam dokładnego modelu biznesowego OpenAI.

Być może właśnie tego dotyczyła próba przewrotu pałacowego w OpenAI, którą obserwowaliśmy pod koniec roku.

To mogła być walka o władzę i strategię rozwoju. Być może były to tarcia między nastawieniem bardziej biznesowym i użytkownym, żeby zacząć na tym zarabiać a podejściem w stylu "kontynuujmy eksperymenty" w nadziei na to, że inwestorzy dalej będą ładować w to górę pieniędzy. Możliwe, że były już zarząd był nastawiony bardziej pragmatycznie. 

Teraz OpenAI zapowiada ChatGPT5, który ma generować też wideo. 

To kolejny krok, dlatego koniecznie są regulacje. Jest tu sporo zagrożeń: od kradzieży własności intelektualnej przez podszywanie się pod ludzi, tworzenie sztucznego świata, w którym trudno odróżnić rzeczywistość od iluzji. Przecież już dziś łatwo wyobrazić sobie film, w którym wystąpią wyłącznie wygenerowani sztucznie aktorzy, którzy są identyczni jak oryginały. 

Przeciwko temu miesiącami strajkowali aktorzy w Stanach Zjednoczonych. A jak to może wyglądać świetne pokazano w jednym z odcinków najnowszego sezonu serialu "Black Mirror." A na co jeszcze czekamy? 

Co dalej? Ciekawsze wydaje się to, co dzieje się poza OpenAI. Toczą się pracę nad modelami próbującymi naśladować system poznawczy człowieka, jego rozumowanie, łączenie informacji z różnych źródeł. Choć jest tu problem z danymi, bo tekst czy obrazy, to co innego niż działanie i myślenie człowieka, ale i tak myślę, że ten kierunek będzie się rozwijać. 

To będzie Pańskie zaskoczenie za rok? 

Zaskoczyłoby mnie, gdyby któraś z firm w tym roku wypuściła model potrafiący rozumować, kojarzyć informację, ale to i tak kwestia czasu. To byłoby coś przełomowego i prędzej czy później to się wydarzy.

Ilustracja: fot. shutterstock/designium