"Odmień być! Bo nie odmienisz!" Jak technologia pożera małe języki 

Brak danego języka w sieci jest dla niego jak akt zgonu. W dobie sztucznej inteligencji masowe wymieranie języków może jeszcze przyspieszyć. Internet, który miał chronić małe kultury, może przyczynić się do ich anihilacji. 

10.06.2024 07.09
"Odmień być! Bo nie odmienisz!" Jak technologia pożera małe języki 

A taki ładny jest, amerykański. I w tym kalifornijskim pięknie, światowości tkwi jego problem. Mowa o waszym przyjacielu, co już nie tylko słucha, ale i mówi.

Jednak ChatGPT nie jest takim poliglotą, za jakiego chciałby uchodzić.

Według przeprowadzonych w marcu zeszłego roku badań po angielsku odpowiada na pytania poprawniej niż w innych językach. Ta informacja raczej nie zaskoczy tych, którzy korzystają z niego raz w ojczystej polszczyźnie, a raz w języku Sex Pistols. Stworzone przez OpenAI narzędzie potrafi pogubić się w meandrach trudnej polskiej interpunkcji, zostawiając w przetłumaczonym tekście angielskie przecinki, domyślnie pisze stylem… nazwijmy to maturalnym, a poproszony o wymyślenie tytułu artykułu potrafi wyprodukować takie kwiatki jak: "Od Symulacji do Realności: Jak LLM-y reshaping Geopolitykę".

Nauczył się tego z internetu.

Nauka języków u AI? Jak krew w piach

Ta, krew od razu –  powiedziałby Sam Altman, ale spójrzmy na fakty. Dominacja angielskiego w sieci jest niezaprzeczalna, choć jej skala może zaskakiwać. Aż ponad połowa wszystkich stron w internecie w swojej podstawowej wersji jest po angielsku, mimo że tylko dla niecałych 5 proc. ludzi na świecie jest to język ojczysty. Dla porównania tylko 1,4 proc. domen za swój pierwszy język ma chiński, który jest pierwszym językiem dla ponad dwukrotnie większej liczby osób. W hindi, czwartym na liście najczęściej używanych języków świata, jest tylko 0,068 procent domen. Te proporcje nie zmieniają się, jeśli weźmiemy poprawkę na to, jak wiele osób deklaruje, że nauczyło się sprawnie władać danym językiem. Nie mamy tu do czynienia z prostą korelacją – wiele osób mówi danym językiem, więc duża liczba treści jest w nim publikowanych.

Nie tylko angielski, ale też niemiecki i japoński są nadreprezentowane w sieci w kontekście liczby osób, które władają nimi w realu. I choć warto w tym miejscu zauważyć, że badacze, dochodząc do tych liczb, nie brali pod uwagę języków aplikacji, które mają ogromne znaczenie na przykład w Chinach, to nadal statystyka, którą prezentują, jest porażająca –  90 proc. stron internetowych jest napisanych w 10 językach (po angielsku, rosyjsku, hiszpańsku, niemiecku, francusku, japońsku, turecku, portugalsku, włosku i persku).

A na świecie istnieje ponad 7000 języków.

Ale do tej liczby może lepiej się nie przywiązywać. Coraz więcej języków zagrożonych jest wyginięciem - według danych UNESCO co najmniej 40 proc. obecnych dziś języków może wkrótce zniknąć. Ta sama organizacja wylicza, że już teraz średnio co dwa tygodnie umiera jeden język. 

Część ekspertów upatruje w tym winy internetu.

“Brak danego języka w sieci jest dla niego jak akt zgonu" –  mówi w filmie promującym wielojęzyczność Dorothy Gordon, przewodnicząca programu UNESCO "Informacja dla wszystkich" i dodaje, że "język jest nierozerwalnie powiązany z kulturą, dziedzictwem i tym, kim jesteśmy jako ludzie". Jeśli ma rację, to rewolucja AI ten proces przyspieszy i zaostrzy. Tylko nieliczne języki są bezpieczne.

Firmy trenujące modele sztucznej inteligencji pełnymi garściami czerpią z zasobów internetowych, niewiele robiąc sobie z takich drobnostek jak prawa autorskie i powołując się na klauzulę dozwolonego użytku. Wszystko - od Dostojewskiego przez początkujących pisarzy po Zenka Martyniuka - to po prostu "content", który mogą sobie wziąć i wykorzystać.

W branży AI panuje przekonanie, że im więcej danych zgromadzi się do trenowania modelu, tym lepszy on będzie. Przyjęcie tego aksjomatu ma jednak swoje konsekwencje. Jeśli wielkość bazy danych jest kluczowa dla jakości dostarczanego AI, użytkownicy anglojęzyczni są z góry na wygranej pozycji. Ci zaś, którzy posługują się językami mniej obecnymi w sieci, dostają gorszy produkt i to tylko wtedy, gdy w ogóle jakikolwiek produkt jest do nich kierowany.

A to nie wszystkie problemy, z którymi zmagają się gorzej reprezentowane języki, bo nie tylko wielkość, ale i jakość baz danych wykorzystywanych do nauki jest istotna. A duża część stron, na których się pojawiają, jest przetłumaczona maszynowo, często za pomocą technologii, które pozostawiają wiele do życzenia. Jaką jakością tekstów to grozi, wie każdy, kto kiedykolwiek miał okazję szukać czegoś w internetowym sklepie, którego właściciele uznali, że Google Translate wystarczy, by sprzedać "ładna Wesoła Bluzka w Plamki Niebieska Szkotka Bawełna". Tak jest taniej, a niska cena –  choćby i wynikająca z fatalnie (jeśli w ogóle) opłacanej pracy, dopłat od chińskiego rządu i ignorowania kosztów środowiskowych, jest ważniejsza niż jakieś tam szanowanie klienta czy jakość jego obsługi.

I choć tak koszmarne tłumaczenia są coraz rzadsze, to więcej może być tłumaczeń, które może i nie są komicznie niezdarne w swojej maszynowości, ale nie są też dobre. Pokusa skorzystania z AI i wrzucenia tekstu w tłumacza zamiast zatrudnienia człowieka, który język zna, czy wygenerowanie promptu zamiast zapłacenia copywriterowi za napisanie czegoś w języku mniejszości, jest ogromna. W końcu pchane przez big techy modele biznesowe nauczyły nas, że treści muszą być (pozornie) darmowe, a ich jakość jest sprawą drugo- jeśli nie trzeciorzędną. A sprawdzenie, czy wygenerowany tekst jest poprawnie napisany i czy w ogóle ma sens, to już nieopłacalna finansowo fanaberia. To trochę jakby uczyć się francuskiego od kogoś, kto owszem mówi po francusku, ale jedyne, co jest w stanie powiedzieć bez błędu, to "to będzie 30 euro za lekcję". Słabe dane na wejściu przekładają się na gorsze efekty na wyjściu. 

Jak się może skończyć korzystanie z bazy danych kiepskiej jakości, przekonało się ostatnio samo Open AI, którego wypuszczony 13 maja model GPT-4o, nowa wersja Chata, zamiast ulepszeń, przyniosła pogorszenia. Chat zaskoczył mówiących po chińsku użytkowników językiem dalekim od obiecywanego przez OpenAI języka naturalnego –  używał dziwacznych konstrukcji, niemających sensu zwrotów i częściej sięgał po halucynacje. Już następnego dnia Tianle Cai, doktorant na Princeton, zaintrygowany dziwnymi odpowiedziami nowej wersji tego modelu językowego, opublikował 100 najdłuższych znalezionych w bazie tokenów (jednostek tekstu, z których korzystają LLM-y do nauki). 97 z nich było związanych z pornografią albo hazardem. Najdłuższy token reklamował darmowe japońskie filmy porno. 

W tym wypadku wpadka nie tyle wynikała z kiepskiej dostępności danych, ale ze złego oczyszczenia bazy przez OpenAI. W efekcie trenowano nowy model GPT 4o na danych złej jakości. 

Wszystkie te problemy sprawiają, że o ile sztuczna inteligencja radzi sobie dobrze w tłumaczeniu na angielski, o tyle znacznie gorzej idzie jej w drugą stronę – z tłumaczeniem z angielskiego na inne języki. Szczególnie jeśli te nie opierają się na alfabecie łacińskim. Gdy naukowcy z Centrum Sztucznej Inteligencji uniwersytetu w Hongkongu poprosili Chat GPT o przetłumaczenie 30 zdań z indonezyjskiego na angielski, poprawnie przetłumaczył aż 28. W drugą stronę poradził sobie dobrze tylko z 19 zdaniami. Podobne efekty uzyskali w wypadku pięciu innych testowanych języków. Nieznaczny spadek jakości (z 29 dobrze przetłumaczonych zdań na 25) zaobserwowano nawet we francuskim. 

Spotify planuje wykorzystać technologię OpenAI do automatycznego tłumaczenia podcastów tak, żeby wygenerowany głos naśladował ton głosu prowadzących. Rozwój tłumaczenia mechanicznego i zwiększenie jego dostępności przynosi cudowne efekty. Dzięki Google Translate mogę latem kupić we włoskiej aptece plaster na odciski, nie wiedząc nawet, jak po włosku jest "stopa". Jednak nie wszystko poddaje się tak łatwemu tłumaczeniu jak codziennie zakupy czy restauracyjne menu.

Tłumaczenie tekstów kultury wymaga ich zrozumienia, a to jest na razie poza zasięgiem maszyn. Dlatego w tłumaczeniu maszynowym często ginie kontekst kulturowy niezbędny do zrozumienia nie tylko słów, ale i znaczenia komunikatu.

"Dla literatury wysokiej, często eksperymentalnej, to narzędzie zupełnie bezużyteczne. Nie widzi niuansów. Nie porozmawia z autorem/autorką, by dopytać, skonsultować. Tłumaczenia literackie to forma sztuki. AI umie odtwarzać i naśladować. Nie tworzy. Nie kombinuje. Może zmieniać według posiadanych wzorców i proponować wariacje. Ale to czasami nie wystarcza. Dlatego wierzę, że AI zastąpi tłumaczy, redaktorów, być może pisarzy, przy książkach wsobnych, gatunkowych. Będzie tworzyć, poprawiać czy tłumaczyć dzieła poprawne, powtarzalne, ale zapewniające jakiś poziom rozrywki. Ja to nazywam literaturą z Excela; wszystko pod tabelki, według formuł, pod wskaźniki i przewidywania marketingowe. To nie jest pisarstwo. To produkcja. A ludzie przy produkcji już dawno mogliby zostać zastąpieni maszynami – tłumaczył Michał Michalski, współwłaściciel niewielkiego warszawskiego wydawnictwa Art Rage, w rozmowie z Markiem Szymaniakiem. 

Tłumaczenie tekstów kultury wymaga ich zrozumienia, a to jest na razie poza zasięgiem maszyn.

Rewolucja dla dobra (prawie) całej ludzkości

Choć coraz więcej osób patrzy krytycznie na takie zapewnienia, firmy tworzące modele sztucznej inteligencji zaklinają się, że ich narzędzia zmienią świat na lepsze i wyzwolą nas od potrzeby realizowania ciężkich, nudnych i powtarzalnych zadań, pozwalając na wybuch ludzkiej kreatywności. Na razie ich wpływ na swoją pracę - a w szczególności trudności ze znalezieniem zleceń i nerwowość w branży - odczuwają przede wszystkim takie mało kreatywne zawody jak rysownicy, copywriterzy, pisarze i dziennikarze, którzy składają pozwy, ewidentnie nie potrafiąc docenić, że zostali zastąpieni w swojej ciężkiej pracy przez algorytm

Osoby mówiące językami gorzej reprezentowanymi lub w ogóle pomijanymi w tych modelach będą miały gorszy dostęp do obiecywanej przez firmy rozwijające AI rewolucji. Nie będą mogły jednym kliknięciem generować treści, prosić o podsumowania artykułów naukowych czy ulubiony przykład piewców magii AI prosić model językowy o wytłumaczenie sobie skomplikowanego zagadnienia jak dziecku. Już niedługo nawet wyszukiwanie informacji w sieci będzie dla nich mniej wygodne, bo Google zapowiedział wprowadzenie do swojej wyszukiwarki narzędzia AI, które "podsumowuje" internet.

Oczywiście ci z użytkowników, którzy znają jeden z bardziej popularnych języków, poradzą sobie, choćby z pomocą tłumaczy, ale to znów dodawanie do procesu kroków, które obniżają jakość doświadczenia. Różnica między dostępem do wiedzy i do narzędzi między angielskim i innymi popularnymi językami nadal będzie - im mniej reprezentowany w sieci język, tym większa. A to wpłynie negatywnie na możliwości zawodowe i szansę uczenia się grup, które nie posługują się angielskim jako pierwszym językiem - bo najlepiej przyswajamy informacje w języku ojczystym. Głosy mówiące i piszące w językach mniej popularnych w sieci będą miały jeszcze trudniejsze zadanie, żeby przebić się ze swoją perspektywą, wiedzą i kulturą. Jeśli w ogóle przebijać się będą.

"Wielojęzyczność w cyberprzestrzeni jest jednym z filarów pluralistycznych, sprawiedliwych, inkluzywnych społeczeństw wiedzy oraz zrównoważonego rozwoju. Większość języków nie jest jednak obecna w cyberprzestrzeni, co pogłębia przepaść językową i cyfrową. Obywatele bez dostępu do cyberprzestrzeni i jej zasobów są coraz bardziej marginalizowani, ponieważ mają ograniczony dostęp do informacji i wiedzy. Umożliwienie wszystkim kulturom wyrażania się w cyberprzestrzeni jest kluczowe. Promowanie tworzenia i dostępu do treści edukacyjnych, kulturalnych i naukowych w różnych językach gwarantuje, że każda kultura może wnieść swój wkład w globalne środowisko cyfrowe i czerpać z niego korzyści. To sprzyja bogatszemu i bardziej inkluzywnemu dialogowi kulturowemu" – podkreślają eksperci UNESCO. 

Rozwój AI może mieć jeszcze jedną niezamierzoną konsekwencję, tym razem nie tylko dla języków mniejszych, ale i tych popularniejszych. Spadnie motywacja, żeby w ogóle uczyć się drugiego języka – nie wspominając nawet o trzecim czy czwartym.

W końcu jeśli z wszystkimi można się będzie łatwo dogadać dzięki gadającemu tłumaczowi w telefonie, a każdą informację zeskanować i uzyskać w miarę przyzwoite tłumaczenie, po co siedzieć godzinami, wkuwając słówka, łamać sobie głowę nad zawiłościami deklinacji, koniugacji i zapuszczać się w pełne niepewności rejony zdań warunkowych. Zamiast z mozołem przedzierać się przez gramatyczne gąszcze, będziemy wybierać znacznie szybszą i prostszą ścieżkę gotowych odpowiedzi, tak jak nie zapamiętujemy już numerów telefonów i odruchowo wyciągamy smartfona, żeby dokonać prostych obliczeń. 

I pal sześć, że kogoś ominie przyjemność nauki hiszpańskiego i lepszego poznania kultury Cervantesa. Hiszpański sobie poradzi. Gorzej z językami, które już teraz kroczą drogą ku śmierci. Bo tu nie chodzi o sam język przecież, choćby miał najpiękniej brzmiące słowa i najbardziej intrygującą gramatykę. Z językiem zanika kultura – większość tekstów o niej powstaje w języku rodzimym. Jeśli mało jest źródeł dotyczących kultury mniej reprezentowanych języków, znikają też informacje o niej, o społecznościach w niej zanurzonych i o korzeniach kolejnych pokoleń. Te, które będą chciały dowiedzieć się tego, skąd pochodzą, mogą stracić tę okazję, bo jeśli zabraknie źródeł, AI informacje o nich zmyśli.

Jak wtedy, kiedy przekonywała, że język fon, którym mówią miliony mieszkańców Beninu i Nigerii, nie istnieje i jest językiem fantastycznym. Może i łatwiej będzie nam się dogadać, kupując bagietki w paryskim bistro, ale możemy za to zapłacić utratą korzeni, różnorodności spojrzeń i perspektyw. Bo język kształtuje nasze postrzeganie rzeczywistości i wyznacza granice świata. Nie wszystko jest przetłumaczalne jeden do jednego, w prostych tłumaczeniach gubią się emocjonalne zabarwienia i różnorodność świata. Samowie z północy mają dwieście określeń, które mówią nie tyle o tym, że jest śnieg (bo jest właściwie zawsze), co precyzują jego właściwości. W tym myśleniu to nie jest po prostu zmarznięta woda, która spadła z nieba i przez kilka miesięcy nie ma zamiaru się nigdzie ruszyć. Tam rodzaj śniegu i pogoda przekładają się na kluczowe elementy życia i pracy. 

Reinkarnacja i reanimacja języków

Języki mają jednak rzadką zdolność do powracania z martwych. Najczęściej chyba przytaczanym przykładem jest hebrajski, który przez niemal dwa tysiące lat był równie żywy co współcześnie łacina - nikt w nim nie plotkował, nie nauczał, nie podawał cen malin. Używany był tylko w kontekście liturgicznym i literackim. W XIX wieku zaczęto starać się o jego ożywienie - zmodernizowano język i dostosowano go do współczesnych czasów, zaczęto lobbować za jego wykorzystywaniem poza stronicami książek i murami świątyń. Od 1948 roku jest oficjalnie językiem urzędowym Izraela i mówią nim miliony ludzi. W tym wypadku pomogła polityka, ale nie zawsze jest niezbędna. Kornijski do XVIII wieku używany w Kornwalii zaczął wymierać pod wpływem narzuconej odgórnie anglicyzacji. Idea, by go ożywić, pojawiła się dopiero w XX wieku. Populacja Kornwalijczyków z dziada pradziada, którzy w dodatku chcą się uczyć języka przodków, nie była ani tak wielka jak w wypadku hebrajskiego, ani nie miała tak silnego poparcia politycznego. Z pomocą przyszedł internet, entuzjaści języka zaczęli organizować się online, wymieniać informacjami. Teraz kultura związana z językiem znów się rozwija, a kornijskiego można uczyć w szkołach. 

Skoro brak obecności w sieci jest wyrokiem śmierci, to jego pojawienie się może być kołem ratunkowym. W sieci działają takie inicjatywy jak Wikitongues czy Living Tougues, które pomagają w zachowaniu języka i kultury przodków lub społeczności. Na swoich stronach publikują słowniki, relacje i filmy nagrane w językach z całego świata, ale także zachęcają do samodzielnego działania, umieszczając poradniki, jak zacząć ratowanie języka swojej społeczności. Polecają między innymi organizowanie grup na Facebooku, spotkań na Teamsach, publikowanie filmów w tym języku na YouTubie. Internet to doskonałe narzędzie do odnalezienia osób o równie niszowych zainteresowaniach jak nasze - czasami takim zainteresowaniem jest język.  

Za zwiększenie wielojęzyczności biorą się też badacze tworzący rozwiązania AI.

"Chcemy myśleć o naszym związku z big techami jako współpracy raczej niż walce. Jest wiele źródeł, którymi można się dzielić" – mówi magazynowi "Wired" Skyler Wang, zajmujący się między innymi tworzeniem baz danych języków z Azji południowo-wschodniej. 

Był jednym z naukowców współpracujących z Metą nad stworzeniem SeamlessM4T, czyli działającym od października tłumaczem, który ma rozumieć niemal 100 języków w mowie i piśmie i być w stanie przełożyć je na 35 wybranych. Meta już wcześniej opublikowała model dumnie nazwany No Language Left Behind, który miał pozwalać na tłumaczenie z 200 języków (czyli zostawiał w tyle zaledwie 6800), nowy model ma być od niego lepszy.

Pomoc big techów może być niezbędna przy trenowaniu niszowych modeli, a nawet samym tylko budowaniu baz danych do ich treningu. Cohere for AI, kanadyjska firma założona przez byłych pracowników Google'a, stworzyła model Aya, który ma świetnie władać 101 językami (z których ponad połowa należy do grupy tych, które mają w sieci mało zasobów). Jej przedstawicielka Sara Hooker, w rozmowie z "The Atlantic" opowiada, że bazy danych do uczenia Ayi były tworzone przy pomocy osób, które odpowiadały na pytania o swój ojczysty język, przepisywały teksty i opisywały te już istniejące. W tę mrówczą pracę zaangażowanych było 3000 osób z niemal 120 krajów. A to realne koszty. 

Można też szukać wsparcia w rządach i samemu tworzyć modele, które będą prezentowały inny niż anglosaski sposób myślenia. Tą drogą skutecznie idą na razie Francuzi, w których prężnie rozwijającego się Mistrala z jednej strony wspiera prezydent Macron, a z drugiej amerykańskie firmy. W lutym Microsoft ogłosił, że Mistral będzie dostępny w jego rozwiązaniach chmurowych. 

Kultura traci na obecności w sieci? I tak, i nie!

"Kiedy zapytamy Francuza, kto wynalazł samolot, jest duża szansa, że odpowie Clément Ader (jeśli w ogóle odpowie). Anglosas odpowie bracia Wright, Brazylijczyk Alberto Santos-Dumont. GPT-4 oczywiście poda drugą odpowiedź, zarówno dlatego, że treści w języku angielskim dominują masowo w internecie, jak i dlatego, że „podłoże kulturowe” jego treningu jest anglosaskie (amerykańskie, mówiąc precyzyjniej). Bardziej ogólnie można postrzegać model językowy jako formę reprezentacji świata. Jeśli wszyscy dostawcy LLM są amerykańscy i prywatni, to narzędzia pośredniczące w naszej relacji ze światem będą miały "amerykańską inspirację". Nie jest to złe samo w sobie, ale niesie ryzyko bardzo silnego formatowania kulturowego" – pisał w poście na Medium Cedric O, współtwórca Mistrala. 

Także w Polsce trwają pracę nad polskojęzycznym modelem językowym z prawdziwego zdarzenia. Prof. Maciej Piasecki z Katedry Sztucznej Inteligencji Politechniki Wrocławskiej, koordynator prac nad PLLUM-em (Polish Large Language Universal Model) polskim dużym modelem językowym, na początku tego roku w rozmowie z Markiem Szymaniakiem w podobnym duchu uzasadniał potrzebę powstania polskiego modelu:

"Te modele mają niewielką wiedzę dotyczącą historii czy kultury naszego kraju. Nierzadko bywa więc, że szukając w nich wiedzy, modele przekręcają albo wprost kłamią, co nazywamy halucynacją".

W dodatku nawet firmy tworzące modele wielojęzykowe przyznają, że nie wszystkie języki są rozwijane na takich samych zasadach, są tak samo dobre - i tak samo bezpieczne. Jak zauważył magazyn "Wired", OpenAI we własnych dokumentach przyznaje, że skupia się na angielskim i zapewnieniu amerykańskim obywatelom jak najlepszego doświadczenia użytkowania ich programu. W dokumencie opisującym działanie Chata GPT4 znalazła się informacja o pracach nad poprawianiem bezpieczeństwa modelu - "Systemy były projektowane, budowane i testowane przede wszystkim w języku angielskim i biorąc pod uwagę perspektywę amerykańską (...) Chociaż istnieją pewne dowody na to, że środki bezpieczeństwa mogą generalizować się na inne języki, nie były one solidnie testowane pod tym kątem". Dalej znajduje się także informacja, że brak takich testów może prowadzić do większej liczby błędów w tych wszystkich językach, które nie mają szczęścia być angielskim.

Być może więc pytanie o to, czy stać nas na własny model językowy - lub lobbowanie za większym uwzględnieniem polskiego i polskiej kultury w najważniejszych modelach - powinno brzmieć zgoła inaczej. Czy jesteśmy gotowi zapłacić cenę za bycie mniej ważnym językiem z perspektywy Doliny Krzemowej? Mniej ważną kulturą? I jeśli tak, czy jesteśmy w stanie oszacować, jak wysoka ona będzie? Oczywiście w imię tańszego "contentu" i prostszego kupowania bagietek we francuskich piekarniach możemy pogodzić się z tym, że w tym wypadku technologiczny postęp w praktyce oznacza amerykanizację na poziomie kultury i języka. Tylko czy tego chcemy.