Modele językowe sztucznej inteligencji zmieniają rzeczywistość, a ty nawet tego nie zauważasz
Kiedy otrzymuję wiadomości na Discordzie, odpowiadam na nie z poziomu powiadomień sugerowanymi odpowiedziami - "Yes", "No", "Okay", "Maybe" lub emotką. Pisząc maile wspomagam się użyciem fraz sugerowanych przez Gmail na podstawie wpisanego tekstu. Następnie przechodzę do wyszukiwarki Google, która sugeruje mi pytania i odpowiedzi na podstawie wyszukiwanego zagadnienia. I na końcu pytam się "Dlaczego nie mówimy więcej o tym, jak niesamowite są tekstowe modele sztucznej inteligencji i przetwarzanie języka naturalnego?".
Żyjemy w audiowizualnej rzeczywistości, w której bardziej niż długie posty na blogach wolimy przeglądać czysto wizualnego Instagrama lub TikToka, które oprócz wzroku angażują również słuch - i to w naszym ulubionym, krótkim i dynamicznym formacie.
Nie jest to nic złego, powiem więcej: człowiek jest istotą wizualną. 90% informacji przekazywanych do mózgu to informacje wizualne, a obrazy są przetwarzane w mózgu z prędkością 60 000 razy wyższą niż tekst. Nasz zachwyt informacjami audiowizualnymi wynika również z faktu, że stworzenie obrazu jest trudniejsze, niż tekstu. Gdybym miała narysować to, co właśnie przed sobą widzę, zajęłoby mi to znacznie więcej czasu niż opisanie tego za pomocą języka.
Ta faworyzacja obrazu ponad tekst objawia się także w naszym podejściu do sztucznej inteligencji. Zachwycamy się możliwościami DALL-E mini, boimy się wyparcia z rynku artystów i fotografów, a deepfake to jedno z czołowych zagrożeń w dezinformacji, o którym pisze się kolejne doktoraty.
Jednocześnie stosunkowo mało się mówi o tym, jak tekstowe modele sztucznej inteligencji i algorytmy przetwarzania języka naturalnego zmieniają naszą rzeczywistość.
Czym jest językowy model sztucznej inteligencji?
W dużym uproszczeniu: językowy model sztucznej inteligencji to model SI, który wykorzystuje metody statystyczne i metody obliczania prawdopodobieństwa (N-gram, Ukryty model Markowa), do określenia prawdopodobieństwa wystąpienia danego ciągu wyrazów. Modele te tekst przewidują na podstawie setek gigabajtów, terabajtów, a w przypadku największych modeli - nawet petabajtów danych. Dane te są niczym innym jak tekstem stworzonym przez człowieka, np. zbiorem 700 tysięcy wpisów blogowych z Bloggera, czy tekstami książek z projektu Gutenberg. Zależnie od tego, do czego model ma być wykorzystywany, można wytrenować go także na postach z forów dyskusyjnych lub Tweetów opatrzonych konkretnym hashtagiem.
Językowe modele sztucznej inteligencji stanowią podstawę dla gałęzi informatyki (a właściwie sztucznej inteligencji), która zajmuje się przetwarzaniem języka naturalnego (natural language processing, NLP). NLP to połączenie opartego na regułach modelowania języka ludzkiego, z modelami statystycznymi oraz uczeniem maszynowym - także tym głębokim. Dzięki tym właściwościom algorytmy NLP są w stanie nie tylko przewidywać tekst (na podstawie modeli językowych), ale także przetworzyć język naturalny - czyli ten, którym posługujemy się na co dzień, na komunikaty zrozumiałe dla komputera.
Przetwarzanie języka naturalnego i zdobycze modeli językowych nas dosłownie otaczają
O ile, aby zobaczyć efekty pracy algorytmów przetwarzających tekst na obraz, musimy zawitać na konkretną witrynę, o tyle sztuczna inteligencja dedykowana przetwarzaniu języka nas dosłownie otacza.
Najprostszym będzie szeroko uwielbiany, a przez wielu znienawidzony folder spam w skrzynkach email. To właśnie algorytmy przetwarzania języka naturalnego odpowiadają za sortowanie wiadomości e-mail nie tylko pomiędzy skrzynką odbiorczą i spamem, ale także za np. sortowanie ich wewnątrz skrzynki odbiorczej Gmail na powiadomienia i oferty reklamowe. W tym przypadku SI analizuje tekst wiadomości pod kątem nadużycia nomenklatury finansowej i zwrotów używanych często w wiadomościach phishingowych. Oprócz tego analizuje ona błędy językowe (np. źle zapisane nazwy firm lub maszynowo przetłumaczony spam), a także intencje nadawcy (np. czy wiadomość nakłania do jakiejś czynności lub, czy wręcz nakazuje).
Algorytmy przetwarzania języka naturalnego są obecne wszędzie tam, gdzie rozmawiamy z maszyną. Obecne na stronach internetowych dużych przedsiębiorstw chatboty to jeden z przykładów, lecz znacznie ważniejszym przykładem są tu trzej wielcy asystenci: Alexa od Amazona, Siri od Apple i Google Assistant od Google. To właśnie rozwój modeli językowych sztucznej inteligencji pozwala im na rozumienie naszych wypowiedzi.
Tłumaczenie maszynowe - przede wszystkim w formie dobrze znanego nam Google Translate, ale i bardziej trafnego DeepL także czerpie garściami ze zdobyczy sztucznej inteligencji. Tłumaczenie maszynowe nierzadko jest obiektem żartów ze względu na swój dosłowny charakter, gdyż bardzo wczesne modele skupiały się na tłumaczeniu słowo po słowie, ignorując związki między wyrazami. Jednakże współcześnie, dzięki przetwarzaniu języka naturalnego, tłumaczenie maszynowe jest coraz bardziej precyzyjne i jest w stanie tłumaczyć wypowiedzi z zachowaniem intencji nadawcy i bez błędów semantycznych.
Skoro SI ma taki potencjał... czy może samodzielnie pisać?
Biorąc pod uwagę fakt, że sztuczna inteligencja jest w stanie odróżnić prawdziwe wiadomości od spamu, Siri jest w stanie samodzielnie odpowiadać na nasze pytania, a Google samo sugeruje pytania i odpowiedzi przy wyszukiwaniu odpowiedzi na nurtujące nas pytania, powstaje pytanie: czy sztuczna inteligencja może coś więcej niż tylko odpowiadać odtwórczo?
Oczywiście, że może. Powiem więcej: sztuczna inteligencja już za nas pisze. Powiem więcej - jest w stanie samodzielnie napisać pracę naukową.
Co prawda jedynie w języku angielskim, ale w internecie znajdziemy wiele narzędzi, które właśnie za pomocą modeli językowych oraz przetwarzanie języka naturalnego są w stanie napisać za nas tekst. Potrzebujesz opisu do postu na social media? Napisz sztucznej inteligencji instrukcję, co przedstawia zdjęcie i wybierz typ tekstu, który chcesz, aby został stworzony.
Takie usługi napędzane sztuczną inteligencją nie są zarezerwowane wyłącznie dla zamkniętego grona osób mającego dostęp do najnowszych technologii. Jasper, Writesonic, Quillbot czy Rytr - to tylko kilka generatorów tekstu dostępnych online, z czego ten ostatni generuje treści po polsku.
SI tworzy nie tylko teksty użytkowe, zastępując copywriterów czy wyręczając PRowców, ale także stanowiąc pole dla rozrywki. Przykładem tego zastosowania jest AI Dungeon, które na podstawie podanych przez nas instrukcji może zastąpić mistrza gry i prowadzić sesję RPG. Wbrew obawom wielu, AI Dungeon nie uczy się na podstawie sesji prowadzonych z graczami, a korzysta jedynie z danych niemalże terabajtowego modelu GPT-3.
Czy sztuczna inteligencja nas zastąpi w pisaniu?
Biorąc pod uwagę, że sztuczna inteligencja już wielokrotnie udowodniła, że jej umiejętności w tworzeniu treści dorównują ludzkim i pomagają nam właściwie od lat, powstaje dość dobre pytanie: czy sztuczna inteligencja nas zastąpi?
Istnieją dziesiątki zawodów opartych na słowie pisanym: dziennikarz, pisarz, rzecznik prasowy czy osoba zajmująca się komunikacją wewnętrzną w firmie. Teoretycznie mogłyby one zostać wyparte z rynku, praktycznie dla nich sztuczna inteligencja może pozostać co najwyżej wsparciem.
Po pierwsze, algorytmy naturalnego przetwarzania języka są ograniczone danymi, jakie posiada model. Model może nie posiadać danych z niszowych dziedzin życia lub dziedzin, które nadal się rozwijają. Nie jest w stanie też pozyskiwać danych dotyczących wydarzeń (o ile nie jest to stale aktualizowany model - a taki jest kosztowny w utrzymaniu). Tekstowe modele sztucznej inteligencji bazują wyłącznie na słowach pisanych, tak więc o ile są w stanie napisać dobre streszczenie książki, o tyle nie są w stanie napisać książki, do której twórca pozyskał inspirację poprzez przekazy ustne lub archiwalne obrazy.
Po drugie, jak mówił Ludwig Wittgenstein, "Granice mojego języka oznaczają granice mojego świata". Ze względu na to, że język angielski stał się współczesną lingua franca i jednym z dwóch głównych języków Internetu, to właśnie w języku angielskim operują najbardziej zaawansowane algorytmy przetwarzania języka naturalnego. Potencjał sztucznej inteligencji w generowaniu tekstu w dużej mierze zależy od ilości i jakości danych treningowych, a o te najłatwiej w językach, którymi posługuje się duża liczba ludzi.
Warto też przypomnieć, że wszystkie modele sztucznej inteligencji są w mniejszym lub większym stopniu uprzedzone, co prowadzi do kolejnego problemu. Bo jeżeli chciałbyś wygenerować tekst reklamy samochodu, sztuczna inteligencja może wykazać bias w stronę kobiet, redagując tekst atrakcyjny dla mężczyzn. Z kolei próba rozmowy z chatbotem opartym na małym modelu sztucznej inteligencji na niszowy temat może faworyzować jedną ze stron lub wręcz generować błędne odpowiedzi.
Tak więc, choć modele tekstowe zmieniają naszą rzeczywistość, to minie jeszcze sporo czasu, zanim wyprą nas one ze spisywania dziejów.