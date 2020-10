Wraz z językami umiera cały korpus wiedzy o świecie ludzi, którzy nimi mówili. Wiele języków pozostaje nieodszyfrowanych, chociażby z powodów tak błahych, jak brak wystarczającej ilości tekstu. Teraz naukowcy pozyskali sprzymierzeńca w próbach dekodowania nieznanych języków. Sztucznego.

Odszyfrowywanie od wieków nieużywanych języków zależy od tego, czy mamy wystarczająco duży zasób tekstów w danym języku, czy wiemy, z jakiego języka się wywodzi, czy też jakie języki z niego powstały. Zbyt mała ilość tekstu uniemożliwia naukowcom poznanie gramatyki, słownictwa czy składni języka na tyle, aby zrozumieć tekst.

Poznawanie dawnych języków

Naukowcy z Laboratorium Informatyki i Sztucznej Inteligencji (CSAIL) na MIT opracowali nowy system, który przynajmniej na razie wydaje się automatycznie rozszyfrowywać nieznane języki, także wtedy, kiedy naukowcy nie mają informacji o ich podobieństwie czy pokrewieństwie do innych znanych języków. Cel projektu badawczego jest niezwykle ambitny: naukowcy chcą stworzyć system, który będzie w stanie rozszyfrować teksty w nieznanych językach na podstawie zaledwie kilku tysięcy słów.

Całość opiera się na kilku zasadach opracowanych na podstawie historycznych badań lingwistycznych, określających, w jaki sposób ewoluują języki. Przykładowo często z toku ewolucji języka jedne dźwięki zamieniane są na inne. Znacznie częściej jednak dochodzi do zamiany „p” w „b” niż „p” w „k”.

Opierając się na podobnych przemianach i ograniczeniach, badacze z MIT stworzyli algorytm, który tworzy całą przestrzeń możliwych przemian i analizuje odległości w wielu wymiarach między poszczególnymi dźwiękami. W ten sposób algorytm jest w stanie oddzielić poszczególne słowa dawnego języka, a następnie przyporządkować im ich odpowiedniki w językach pokrewnych.

W przeciwieństwie do wcześniejszych algorytmów dekodujących języki, ten opracowany w MIT nie wymaga informacji o tym, z jakim językiem spokrewniony jest analizowany język. Co więcej, sam jest w stanie określić stopień pokrewieństwa z innymi znanymi językami. To z resztą jedno z najważniejszych zagadnień podczas rozszyfrowywania języka. Badacze spędzili kilkadziesiąt lat, poszukując języka pokrewnego do pisma liniowego B, a o pochodzenie języka iberyjskiego naukowcy wciąż się spierają.

Testowanie algorytmu

Podczas testów nowego systemu badacze porównywali za jego pomocą różne znane języki współczesne. Za każdym razem algorytm był w stanie prawidłowo przyporządkować je do poszczególnych rodzin językowych.

Podjęto także próbę określenia rodziny, do której należy język iberyjski. Porównano go zatem z językiem baskijskim, łaciną oraz językami należącymi do rodzin języków romańskich, germańskich, tureckich i uralskich. Język iberyjski okazał się stosunkowo najbardziej zbliżony do języka baskijskiego i łacińskiego, ale wciąż wydaje się zbyt od nich odległy, aby należeć do tej samej rodziny. Może to wskazywać, że rację mają ci lingwiści, którzy podejrzewają, że język iberyjski nie jest spokrewniony z żadnym innym znanym językiem.

Co dalej?

Naukowcy chcą poszerzyć zakres działania algorytmu poza łączenie tekstów z wyrazami w innym znanym języku. Przypadek języka iberyjskiego wskazuje, że mogą pojawiać się języki, co do których nie mamy żadnego pokrewnego języka wśród obecnie istniejących. Stąd i pomysł, aby identyfikować znaczenie słów, nawet jeżeli nie wiadomo jak je odczytywano.

W ten sposób możliwe byłoby analizowanie tekstu przez kontekst miejsc, w których je znaleziono, ale także osób, które mogły być w nich opisywane. W takich przypadkach potencjalnie możliwe byłoby rozszyfrowywanie tekstu bez porównywania go z jakimkolwiek innym językiem. W takim przypadku prawidłowo działający algorytm mógłby stać się uniwersalnym kamieniem z Rosetty.