REKLAMA

W internecie zatruto dane. Teraz muszą zamknąć projekt

Popularne narzędzie wykorzystywane przez lingwistów, Wordfreq, nie otrzyma już więcej aktualizacji. Jego twórczyni ogłosiła koniec rozwoju projektu, wskazując, że niemożliwym jest dla niej rozwój narzędzia wobec "zatrucia danych", do jakiego doprowadziła generatywna sztuczna inteligencja.

W internecie zatruto dane. Teraz muszą zamknąć projekt
REKLAMA

Popularyzacja generatywnej sztucznej inteligencji i narzędzi jej wykorzystujących doprowadziła nie tylko do rozwoju tej gałęzi AI i oferowanych produktów, ale także do zalania internetu treściami wygenerowanymi przez AI. Obrazami, treściami w mediach społecznościowych, a niekiedy także w treściach o charakterze edukacyjnym czy naukowym.

To zjawisko okazuje się być szkodliwe nie tylko ze względu na wątpliwą jakość treści, ale także ich syntetyczny charakter. O tym głośno mówi twórczyni narzędzia Wordfreq, która ze względu na "twórczość" generatywnej AI zdecydowała się na zakończenie dalszego rozwoju projektu.

REKLAMA

Smutny dzień dla lingwistów. Popularne narzędzie kończy swój żywot

Wordfreq to program (a właściwie biblioteka w języku programowania Python), który umożliwiał śledzenie, jak w różnych językach zmienia się sposób używania słów. Jest to możliwe dzięki głównej funkcji Wordfreq - analizie częstotliwości, z jaką dane wyrazy są używane w danym języku. Działanie Wordfreq opiera się na ogromnym zbiorze danych, który obejmuje m.in. miliony stron wszystkich wersji językowych Wikipedii, napisy do filmów i seriali z bazy OpenSubtitles, artykuły prasowe, książki, strony internetowe oraz dane "zaciągnięte" z serwisów społecznościowych, takich jak Reddit czy X (dawny Twitter).

Wordfreq był ceniony szczególnie przez osoby zajmujące się językoznawstwem, filozofią języka czy po prostu potrzebujących danych ilościowych związanych z częstotliwością występowania wyrazów. Możliwe wykorzystania Wordfreq obejmowały m.in. analizę zmieniających się nawyków językowych wraz ze zmianą slangu i kultury popularnej, czy możliwość śledzenia ewolucji języka.

To wszystko jednakże w czasie przeszłym, gdyż projekt Wordfreq oficjalnie został porzucony przez jego twórczynię. We wpisie w serwisie GitHub twórczyni projektu, Robyn Speer, przekazała, że projekt nie będzie już aktualizowany. Jako bezpośrednie przyczyny tej decyzji programistka wskazała fakt, że internet pełen jest "pomyj generowanych przez duże modele językowe, napisane przez nikogo, aby nic nie komunikować" oraz fakt, że dobre jakościowo dane stały się zbyt drogie.

Może zainteresować cię także:

Zdaniem Speer dalsza kontynuacja projektu w realiach, w których duża część danych generowana jest syntetycznie, doprowadziłaby do zniekształcenia informacji co do rzeczywistej częstotliwości występowania słów w mowie i piśmie.

Oczywiście, w źródłach danych wordfreq znajdował się spam, ale był on możliwy do opanowania i często możliwy do zidentyfikowania. Duże modele językowe generują tekst, który maskuje się jako prawdziwy język z intencjami, nawet jeśli nie ma żadnej, a ich dane wyjściowe pojawiają się wszędzie.

- przekazała Robyn Speer.

Na dowód swoich twierdzeń przytoczyła ona analizę profesora Philipa Shapira z Uniwersytetu w Manchesterze, który wykazał, że po popularyzacji ChatGPT i innych czatbotów OpenAI, popularność słowa "delve" [w połączeniu ze słowem "into" tworzy czasownik frazowy "delve into" - zagłębiać się] dosłownie wystrzeliła w publikacjach naukowych, podczas gdy przed 2022 rokiem częstotliwość jego użycia była relatywnie bardzo niska.

Innym zmartwieniem Speer jest fakt, że obecnie nie jest ona w stanie pozwolić sobie na pozyskiwanie dobrej jakości danych potrzebnych do działania Wordfreq, gdyż w dużej mierze zależny jest on od danych "konwersacyjnego użycia języka", takiego jak ten używany na X (dawnym Twitterze).

Dane z Twittera zawsze były zbudowane na piasku. Nawet gdy Twitter zezwolił na bezpłatny dostęp do części swojego "firehose API" [stały strumień wszystkich dostępnych danych ze źródła w czasie rzeczywistym], warunki użytkowania nie pozwalały mi na dystrybucję tych danych poza firmą, w której je zebrałam (Luminoso). Wordfreq ma częstotliwości [występowania słów], które zostały zbudowane z tych danych jako danych wejściowych, ale zebrane dane nie należały do mnie i już ich nie mam.

"Wszystko jest pożerane przez generatywną sztuczną inteligencję"

Według słów programistki, nawet gdyby Twitter nagle zaczął udostępniać dane potrzebne Wordfreq, nie znalazłaby ona tam żadnych "wartościowych informacji" gdyż "strona została zastąpiona zabawką oligarchów, pełnym spamu prawicowym szambem o nazwie X". Podobny problem na w przypadku serwisu Reddit, który choć umożliwia dostęp do swojego API - a więc danych potrzebnych Wordfreq - robi to za cenę "którą zapłaci tylko OpenAI".

Robyn Speer na zakończenie wyraziła żal, gdyż Wordfreq jest wypadkową połączenia jej dwóch pasji - programowania i lingwistyki, ze szczególnym zainteresowaniem lingwistyką korpusową.

REKLAMA

Dziedzina, którą znam jako „przetwarzanie języka naturalnego”, jest obecnie trudna do znalezienia. Wszystko jest pożerane przez generatywną sztuczną inteligencję. Inne techniki nadal istnieją, ale generatywna sztuczna inteligencja zasysa całe powietrze w pomieszczeniu i dostaje wszystkie pieniądze. Rzadko można zobaczyć badania NLP, które nie są zależne od zamkniętych danych kontrolowanych przez OpenAI i Google, dwóch firm, którymi już gardzę. [...] Jeśli ktoś zbiera cały tekst z twoich książek, artykułów, stron internetowych lub publicznych postów, to najprawdopodobniej tworzy maszynę do plagiatowania, która będzie twierdzić, że twoje słowa są jej własnymi. Nie chcę więc pracować nad niczym, co można by pomylić z generatywną sztuczną inteligencją lub co mogłoby przynieść korzyści generatywnej sztucznej inteligencji.

- zakończyła rozżalona Speer.

Narzędzie Wordfreq wciąż dostępne jest w serwisie GitHub. Robyn Speer zadeklarowała jedynie brak dalszych aktualizacji, wobec czego projekt opiera się na danych językowych zebranych "do około roku 2021".

REKLAMA
Najnowsze
Zobacz komentarze
REKLAMA
REKLAMA
REKLAMA