Zawód przyszłości? Historyk, bo właśnie się okazało, że boty nie potrafią go zastąpić
Historycy i naukowcy zajmujący się uczeniem maszynowym i sztuczną inteligencją nie mają złudzeń: generatywna AI wiedzą z historii może pochwalić się jedynie przed licealistami.

Ze świecą można szukać zawodu, któremu nie wróżono zastąpienia przez AI. Nominacje do wcześniejszej emerytury otrzymali już programiści, nauczyciele, dziennikarze, szeroko rozumiani artyści, aktorzy czy kasjerzy.
Jak udało się dowieść badaczom z dziedziny uczenia maszynowego i sztucznej inteligencji ich losu mogą nie podzielić... historycy. Bo AI kuleje gdy musi odpowiedzieć na pytania i problemy, z którymi codziennie w swojej pracy mierzą się historycy.
Historia nadal potrzebuje ludzkich naukowców. AI wypada gorzej niż "źle"
Zespół naukowców z austriackiego Complexity Science Hub stworzył nowy benchmark Hist-LLM - test wydajności do sprawdzania potencjału dużych modeli językowych sztucznej inteligencji w odpowiadaniu na pytania z zakresu historii.
Hist-LLM został opracowany na podstawie informacji z Seshat Global History Databank, ogromnej bazy danych historycznych, której rozwój i dane są nadzorowane przez międzynarodowy zespół ekspertów oraz naukowców. Seshat systematycznie zbiera i organizuje informacje dotyczące tego, co obecnie wiadomo o społecznej i politycznej organizacji społeczeństw ludzkich oraz o ewolucji cywilizacji w czasie - od około 4 000 r. p.n.e. do roku 1850.
Test Hist-LLM opiera się na 36 tys. punktów danych - informacji wyróżnionych w bazie Seshat. Każde pytanie opracowane przez badaczy odnosi się do trzech punktów danych, na temat których można znaleźć informacje w bazie Seshat. W każdym pytaniu zawarte są cztery propozycje odpowiedzi, ale tylko jedna z nich jest prawdziwa.
Cecha „wytwarzanie dóbr publicznych” jest skategoryzowana w kategorii „ideologia umacnia prospołeczność”. Czy była ona obecna, domniemana obecna, domniemana nieobecna lub nieobecna dla ustroju zwanego „Imperium Rzymskie - Dominat” w okresie od 285 r. n.e. do 394 r. n.e.?
Przykładowe pytanie z Hist-LLM. Pogrubione fragmenty to punkty danych
Badacze skonstruowali ponad 50 pytań, które zadali w sumie siedmiu modelom generatywnej AI: Gemini 1.5, GPT-3.5, GPT-4 turbo, GPT-4o, Llama 3 70B, Llama 3.1 70B oraz Llama 3.1 8B. Omawiając wyniki badacze zaznaczyli, że benchmark miał na celu porównać wiedzę na poziomie eksperckim. Bo choć ich test nie jest pierwszym w swojej dziedzinie, to większość popularnych benchmarków historycznych sprawdza wiedzę "na poziomie liceum".
Używając metody statystycznej zwanej zbalansowaną dokładnością, badacze przeanalizowali odpowiedzi czatbotów. Największą skutecznością wykazał się GPT-4 turbo, który odpowiedział poprawnie na 46 proc. pytań, a tuż za nim był model GPT-4o, który odpowiedział poprawnie na 44,7 proc. pytań. Podium zamknął model Llama 3.1 70B z 40.8 proc. poprawnych odpowiedzi - reszta czatbotów miała poniżej 40 proc. skuteczności. Najgorzej wypadł model Llama 3.1 8B, który poprawnie odpowiedział na jedynie 33,6 proc. pytań.
W drugą stronę, AI najlepiej radziła sobie w pytaniach dotyczących historii Ameryki Łacińskiej i centralnej oraz środkowej Azji - odpowiednio 42 i 40 proc. poprawnych odpowiedzi. Najgorzej wypadały odpowiedzi dotyczące historii Afryki subsaharyjskiej oraz Oceanii, gdzie modele AI średnio przekroczyły ledwie 35 proc. poprawnych odpowiedzi.
Czatbotom idzie lepiej w odpowiadaniu na pytania dotyczące złożoności społeczeństw (m.in. struktur społecznych, ustroju politycznego, używanych języków czy systemów miar) niż na pytania dotyczące religii i ideologii. Modele generatywnej AI średnio uzyskiwały wynik odpowiednio 43,4 proc. i 36 proc. poprawnych odpowiedzi.
Ogółem wyniki okazały się być poniżej oczekiwań naukowców, według których obecnie istniejące systemy sztucznej inteligencji nie są w stanie dorównać wiedzy historyków.
„Głównym wnioskiem płynącym z tego badania jest to, że duże modele językowe sztucznej inteligencji, choć imponujące, wciąż nie mają głębi zrozumienia wymaganej do zaawansowanej historii. Świetnie sprawdzają się w przypadku podstawowych faktów, ale jeśli chodzi o bardziej zniuansowane badania historyczne na poziomie doktoratu, nie są jeszcze w stanie sprostać temu zadaniu"
- powiedziała Maria del Rio-Chanona, jedna ze współautorek artykułu i profesor nadzwyczajny informatyki na University College London.
Może zainteresować cię także: