Jest nowa wersja tłumacza DeepL - alternatywy dla Tłumacza Google. Sprawdziłem, jak tłumaczył kiedyś, a jak dzisiaj
Na początku ubiegłego roku Mateusz Nowak wyrażał tutaj swój zachwyt nad DeepL, najnowszym tłumaczem online, za którym stoi Linguee, słownik z mnóstwem przykładów wykorzystania tłumaczonych słów w zdaniach i frazach. Teraz zespół stojący za DeepL informuje, że udało mu się opracować całkowicie nowy system sieci neuronowych, gwarantujący najlepsze tłumaczenia dostarczane przez SI na rynku. Postanowiłem sprawdzić, czy jakość tłumaczenia uległa poprawie.
W pracy tłumacza rzadko korzystam z usług automatycznego tłumaczenia online, bowiem od czasu studiów jestem przekonany, że komputer jeszcze bardzo długo nie będzie w stanie zrozumieć bardziej skomplikowanych tekstów i dostarczyć tłumaczenia, którego nie trzeba by było poprawiać. Niemniej jednak, muszę przyznać, że postęp w tej dziedzinie na przestrzeni ostatnich lat jest znaczący, a teksty dostarczane przez narzędzia dostępne online, takie jak Tłumacz Google, Tłumacz Bing czy właśnie DeepL, są coraz lepsze. Co więcej, w ostatnim roku to właśnie DeepL był narzędziem pierwszego wyboru, jeżeli już po jakieś sięgałem.
Każda z wymienionych wyżej usług ma swoje mocne i słabe strony. W pracy wybieram głównie DeepL ze względu na to, że znacznie lepiej od pozostałych radzi sobie z tekstami specjalistycznymi. Tłumacz Google zdecydowanie lepiej radzi sobie ze zwykłym, codziennym językiem. Dwa dni temu miałem nawet przykład dobrze ilustrujący skłonności obu systemów.
We fragmencie tłumaczonego tekstu znalazło się zdanie:
Gdy wrzuciłem tekst do DeepL, otrzymałem:
Zaskoczył (i rozbawił) mnie fakt, że DeepL wyłożył się na tak prostym zdaniu. Dlatego też z ciekawości wrzuciłem ten sam tekst do tłumacza Google. Otrzymałem:
Brzmi zdecydowanie naturalniej. Potwierdza się moje przekonanie, że DeepL stając przed niedookreślonym tekstem, wybiera rejestr formalny/naukowy, a Google Translate naturalny/standardowy. Co więcej, Bing Microsoft Translator wygenerował dokładnie taki sam tekst jak Google.
Podążając za pomysłem Mateusza z ubiegłego roku, postanowiłem wrzucić fragment dłuższego tekstu we wszystkie trzy narzędzia i zobaczyć, jak poradzą sobie one z tłumaczeniem z języka angielskiego na język polski.
Do wszystkich trzech usług wkleiłem następujący tekst o zbliżającej się misji sondy Solar Orbiter, ktora poleci w stronę Słońca:
Otrzymałem trzy różne tłumaczenia. Zgadnijcie skąd pochodzą.
1.
2.
3.
W pierwszym tekście widać wyraźnie, że algorytmy nie poradziły sobie z gramatyką i bardziej złożonymi zdaniami. W drugim przykładzie gramatyka ma się dużo lepiej, ale na końcu otrzymujemy zamiast Układu Słonecznego Słońce System. Dopiero w trzecim przykładzie mniej więcej większość jest ok.
Skąd pochodziły tłumaczenia? 1. DeepL, 2. Tłumacz Google, 3. Bing Microsoft Translator. Widać zatem, że choć każdy z powyższych tekstów da się zrozumieć, to żaden z nich nie nadaje się do dalszej publikacji i wymaga post-edycji.
Zespół twórców stojących za DeepL poinformował jednak dzisiaj, że wprowadza całkowicie nowy system sieci neuronowych, który ma gwarantować lepsze tłumaczenia.
Z tego też powodu postanowiłem wykorzystać te same fragmenty tekstów, które w ubiegłym roku wykorzystał Mateusz, aby zobaczyć, czy tym razem DeepL przetłumaczy je lepiej.
Test #1
Tekst tłumaczony:
Tłumaczenie za pomocą DeepL w styczniu 2019 r.:
Tłumaczenie za pomocą DeepL w lutym 2020 r.:
W porównaniu powyższych tekstów widać wyraźnie, że choć zasadnicza struktura tekstu wygląda tak samo jak w ubiegłym roku, to mimo wszystko szyk w zdaniach jest lepszy, a sam tekst brzmi bardziej naturalnie. Z drugiej strony, DeepL zdecydował się opisowo potraktować zwrot start-up company, choć w języku polskim start-up nie stanowi już niczego nowego i wykorzystywany jest powszechnie przy opisywaniu określonego modelu firmy.
Test #2
Tekst tłumaczony:
Tłumaczenie za pomocą DeepL w styczniu 2019 r.
Tłumaczenie za pomocą DeepL w lutym 2020 r.
Także i w tym tekście widzimy wyraźną poprawę jakości tłumaczenia. „Wyniki pracy człowieka” brzmią lepiej niż „wynik pracy czlowieka”. Ostatnie zdanie pierwszego akapitu także uległo korzystnej zmianie. Dużo lepiej czyta się, że „wskaźnik twierdził, że istnieje wysoka korelacja” niż „wskaźnik, który stwierdził wysoką korelację”. Na początku trzeciego akapitu oczywiście chodziło o wynik (tak jak DeepL przetłumaczył w 2020 r.), a nie o wyjście (jak w 2019 r.). „Z tego powodu nie jest konieczne uzyskanie punktu 1” (2019) nie ma żadnego sensu w języku polskim, ale już „z tego powodu nie jest konieczne uzyskanie wyniku 1” wyraźnie mówi nam, o co chodzi w tym zdaniu. Należy zatem stwierdzić, że tekst przetłumaczony z wykorzystaniem nowych sieci neuronowych jest znacznie lepszy niż ubiegłoroczny. Kolejny punkt dla nowej metody tłumaczenia DeepL.
Test #3
Tekst tłumaczony:
Tłumaczenie za pomocą DeepL w styczniu 2019 r.
Tłumaczenie za pomocą DeepL w lutym 2020 r.
Czy jest zatem lepiej?
Porównując powyższe tłumaczenia mam mieszane odczucia. Z jednej strony tłumaczenia na język polski uległy wyraźnej poprawie. Nie jest jeszcze idealnie, ale widać lepsze panowanie nad strukturami gramatycznymi i nad strukturą całych zdań. Z drugiej strony tłumaczenie na język angielski wygląda gorzej, Łukasz Kotkowski zmienił imię na Luke'a, gdzieniegdzie brakuje pojedynczych wyrazów, które sprawiałyby, że tekst byłby bardziej naturalny.
Cały ten krótki eksperyment pokazuje, jak niezwykle złożonym zagadnieniem jest tłumaczenie z jednego języka na drugi. Nie można jednoznacznie stwierdzić, czy nowe rozwiązania zastosowane w DeepL poprawiają jakość tłumaczenia. W każdym przetłumaczonym tekście można znaleźć jakieś elementy, które uległy wygładzeniu i brzmią po prostu lepiej, tylko po to, aby kilka wyrazów później trafić na miejsce, gdzie cały algorytm się wyłożył i nie zrozumiał tekstu źródłowego.
Nie zrozumcie mnie źle, narzędzia takie jak DeepL, Tłumacz Google czy Bing Microsoft Translator to fantastyczne propozycje. W 90 proc. przypadków tłumaczą każdy tekst na tyle dobrze, że można zrozumieć, o co chodziło w tekście źródłowym. Niemniej jednak tekst, który wychodzi z takiego tłumacza, niemal nigdy nie jest tekstem poprawnym językowo i wymaga post-edycji, zanim zostanie zaprezentowany szerszemu gronu.