Bot, który ma wiedzę sprzed 100 lat. Sprawdzi, jak myśleli wtedy ludzie
Talkie to eksperymentalny model AI, który "żyje" w świecie sprzed 1931 roku. Jego odpowiedzi odzwierciedlają język i sposób myślenia epoki sprzed niemal stu lat.

Generatywna sztuczna inteligencja, jakkolwiek daleka od inteligencji człowieka, nadal jest wynalazkiem który nie śnił się naszym dziadkom czy pradziadkom. Ale co gdyby taki ChatGPT nie wiedział co to jest smartfon, internet, lądowanie na księżycu, ani nie wiedział, że miała miejsce druga wojna światowa? To postanowiło sprawdzić trio naukowców, którzy stworzyli model Talkie.
Talkie operuje na danych z czasów, gdy nie istniał teflon, gitara elektryczna, ani nawet Dworzec Główny w Warszawie
Projekt Talkie został opisany przez Nicka Levine, Davida Duvenauda i Aleca Radforda jako "vintage LLM" ("duży model językowy sztucznej inteligencji z poprzedniej epoki") i polega na radykalnym ograniczeniu danych treningowych do konkretnego momentu w historii. W przypadku Talkie granicą jest koniec 1930 roku.
Model został wytrenowany na setkach miliardów danych pochodzących wyłącznie z historycznych, anglojęzycznych źródeł - książek, gazet, czasopism, patentów i akt prawnych z datą publikacji przed 1 stycznia 1931 roku. Dzięki temu wiedza modelu kończy się dokładnie tam, gdzie zaczyna się jeden z najbardziej burzliwych okresów w historii ludzkości.
Wybór tej granicy nie jest przypadkowy. Materiały opublikowane w 1930 roku weszły niedawno do domeny publicznej, co pozwala twórcom ominąć problem praw autorskich, z którym mierzą się współczesne modele językowe. Jednocześnie taki zbiór danych tworzy unikalne środowisko badawcze, w którym można obserwować, jak model "postrzega" przyszłość bez znajomości wydarzeń, które dla współczesnych systemów są oczywiste.
Jednym z głównych celów projektu jest sprawdzenie, czy model oparty wyłącznie na danych historycznych jest w stanie przewidywać przyszłe zdarzenia lub przynajmniej oceniać ich "zaskakujący" charakter. W dokumentacji projektu opisano eksperyment polegający na analizie kilku tysięcy wydarzeń historycznych i mierzeniu, jak bardzo odbiegają one od oczekiwań modelu. Wyniki wskazują, że poziom "zaskoczenia" rośnie po przekroczeniu granicy 1930 roku, szczególnie dla wydarzeń z połowy XX wieku.
Talkie nie jest jednak wolny od ograniczeń. Dane treningowe pochodzą z zeskanowanych dokumentów, co oznacza konieczność stosowania technologii OCR. Jak pokazano w analizie, jakość takiej transkrypcji znacząco wpływa na efektywność uczenia - modele trenowane na surowych danych OCR osiągają około 30 proc. skuteczności w porównaniu z danymi przepisywanymi ręcznie na "suche" pliki tekstowe. Problemem jest także tzw. "przeciek temporalny", czyli przypadkowe przenikanie informacji z późniejszych lat do zbioru treningowego - na przykład pieczątek bibliotecznych, odręcznych notatek na stronach książek czy zdjęć przypadkowo wsadzonych pomiędzy skanowane strony.
Twórcy przyznają również, że model może wykazywać ograniczoną wiedzę lub popełniać błędy faktograficzne, szczególnie w obszarach słabiej reprezentowanych w danych. Jednocześnie podkreślają, że Talkie zachowuje spójność stylistyczną i językową epoki, co czyni go narzędziem nie tylko do badań nad AI, ale także do eksperymentów z historią języka i kultury.
Projekt pozostaje na wczesnym etapie rozwoju. Naukowcy mają w planach zwiększenie rozmiaru modelu oraz rozszerzenie zbioru danych o kolejne języki i źródła historyczne. Równolegle trwają prace nad poprawą jakości danych i eliminacją anachronizmów. Na razie Talkie stanowi przede wszystkim narzędzie badawcze, które pozwala spojrzeć na rozwój ludzkości z zupełnie innej perspektywy.
Czytaj też:



















