Media  / Artykuł

Jest nowa wersja tłumacza DeepL - alternatywy dla Tłumacza Google. Sprawdziłem, jak tłumaczył kiedyś, a jak dzisiaj

Na początku ubiegłego roku Mateusz Nowak wyrażał tutaj swój zachwyt nad DeepL, najnowszym tłumaczem online, za którym stoi Linguee, słownik z mnóstwem przykładów wykorzystania tłumaczonych słów w zdaniach i frazach. Teraz zespół stojący za DeepL informuje, że udało mu się opracować całkowicie nowy system sieci neuronowych, gwarantujący najlepsze tłumaczenia dostarczane przez SI na rynku. Postanowiłem sprawdzić, czy jakość tłumaczenia uległa poprawie.

W pracy tłumacza rzadko korzystam z usług automatycznego tłumaczenia online, bowiem od czasu studiów jestem przekonany, że komputer jeszcze bardzo długo nie będzie w stanie zrozumieć bardziej skomplikowanych tekstów i dostarczyć tłumaczenia, którego nie trzeba by było poprawiać. Niemniej jednak, muszę przyznać, że postęp w tej dziedzinie na przestrzeni ostatnich lat jest znaczący, a teksty dostarczane przez narzędzia dostępne online, takie jak Tłumacz Google, Tłumacz Bing czy właśnie DeepL, są coraz lepsze. Co więcej, w ostatnim roku to właśnie DeepL był narzędziem pierwszego wyboru, jeżeli już po jakieś sięgałem.

Każda z wymienionych wyżej usług ma swoje mocne i słabe strony. W pracy wybieram głównie DeepL ze względu na to, że znacznie lepiej od pozostałych radzi sobie z tekstami specjalistycznymi. Tłumacz Google zdecydowanie lepiej radzi sobie ze zwykłym, codziennym językiem. Dwa dni temu miałem nawet przykład dobrze ilustrujący skłonności obu systemów.

We fragmencie tłumaczonego tekstu znalazło się zdanie:

A japanese female in her thirties (height: 157 cm, weight: 55 kg) was found dead in her bathtub.

Gdy wrzuciłem tekst do DeepL, otrzymałem:

Japońska samica po trzydziestce (wzrost: 157 cm, waga: 55 kg) została odnaleziona martwa w wannie.

Zaskoczył (i rozbawił) mnie fakt, że DeepL wyłożył się na tak prostym zdaniu. Dlatego też z ciekawości wrzuciłem ten sam tekst do tłumacza Google. Otrzymałem:

Japonka po trzydziestce (wzrost: 157 cm; waga: 55 kg) została znaleziona martwa w wannie.

Brzmi zdecydowanie naturalniej. Potwierdza się moje przekonanie, że DeepL stając przed niedookreślonym tekstem, wybiera rejestr formalny/naukowy, a Google Translate naturalny/standardowy. Co więcej, Bing Microsoft Translator wygenerował dokładnie taki sam tekst jak Google.

Podążając za pomysłem Mateusza z ubiegłego roku, postanowiłem wrzucić fragment dłuższego tekstu we wszystkie trzy narzędzia i zobaczyć, jak poradzą sobie one z tłumaczeniem z języka angielskiego na język polski.

Do wszystkich trzech usług wkleiłem następujący tekst o zbliżającej się misji sondy Solar Orbiter, ktora poleci w stronę Słońca:

Solar Orbiter is an ESA-led space mission with strong NASA participation to study the sun, its outer atmosphere and what drives the dynamic outflow of solar wind that affects Earth. The spacecraft will observe the sun's atmosphere up close with high spatial resolution telescopes and compare these observations with measurements taken in the environment directly surrounding the spacecraft—together creating a detailed picture of how the sun affects the space environment around Earth and further out in the Solar System.

Otrzymałem trzy różne tłumaczenia. Zgadnijcie skąd pochodzą.

1.

Solar Orbiter jest prowadzony przez ESA misja kosmiczna z silnym udziałem NASA do badania Słońca, jego atmosfery zewnętrznej i co napędza dynamiczny odpływ wiatru słonecznego, który wpływa na Ziemię. Statek kosmiczny będzie obserwował atmosferę Słońca z bliska za pomocą teleskopów o wysokiej rozdzielczości przestrzennej i porównywał te obserwacje z pomiarami wykonanymi w środowisku bezpośrednio otaczającym statek kosmiczny - tworząc szczegółowy obraz tego, jak Słońce wpływa na środowisko kosmiczne wokół Ziemi i dalej w Układzie Słonecznym.

2.

Solar Orbiter to misja kosmiczna kierowana przez ESA z dużym udziałem NASA w badaniu Słońca, jego zewnętrznej atmosfery i tego, co napędza dynamiczny odpływ wiatru słonecznego, który wpływa na Ziemię. Sonda będzie obserwować atmosferę Słońca z bliska za pomocą teleskopów o wysokiej rozdzielczości przestrzennej i porówna te obserwacje z pomiarami wykonanymi w środowisku bezpośrednio otaczającym statek kosmiczny - tworząc razem szczegółowy obraz tego, jak słońce wpływa na środowisko kosmiczne wokół Ziemi i dalej w Słońcu System.

3.

Solar Orbiter to kierowana przez ESA misja kosmiczna z silnym udziałem NASA w celu zbadania słońca, jego zewnętrznej atmosfery i tego, co napędza dynamiczny odpływ wiatru słonecznego, który wpływa na Ziemię. Sonda będzie obserwować atmosferę słońca z bliska za pomocą teleskopów o wysokiej rozdzielczości przestrzennej i porównać te obserwacje z pomiarami wykonanymi w środowisku bezpośrednio otaczającym statek kosmiczny — razem tworząc szczegółowy obraz tego, jak słońce wpływa na środowisko kosmiczne wokół Ziemi i dalej w Układzie Słonecznym.

W pierwszym tekście widać wyraźnie, że algorytmy nie poradziły sobie z gramatyką i bardziej złożonymi zdaniami. W drugim przykładzie gramatyka ma się dużo lepiej, ale na końcu otrzymujemy zamiast Układu Słonecznego Słońce System. Dopiero w trzecim przykładzie mniej więcej większość jest ok.

Skąd pochodziły tłumaczenia? 1. DeepL, 2. Tłumacz Google, 3. Bing Microsoft Translator. Widać zatem, że choć każdy z powyższych tekstów da się zrozumieć, to żaden z nich nie nadaje się do dalszej publikacji i wymaga post-edycji.

Zespół twórców stojących za DeepL poinformował jednak dzisiaj, że wprowadza całkowicie nowy system sieci neuronowych, który ma gwarantować lepsze tłumaczenia.

Z tego też powodu postanowiłem wykorzystać te same fragmenty tekstów, które w ubiegłym roku wykorzystał Mateusz, aby zobaczyć, czy tym razem DeepL przetłumaczy je lepiej.

Test #1

Tekst tłumaczony:

DeepL Translator is a translation service launched in August 2017 by DeepL GmbH, a start up company backed up by Linguee. The service currently supports translations between nine major European languages.[1][2] It was shown that DeepL translations sounded somewhat more natural to humans compared to other major translation services such as Google Translate, Microsoft Translator and Facebook,[3][4][5] using BLEU to assess the translation quality against the competitors.[6]

Tłumaczenie za pomocą DeepL w styczniu 2019 r.:

DeepL Translator to usługa tłumaczeniowa uruchomiona w sierpniu 2017 r. przez DeepL GmbH, firmę start-upową wspieraną przez Linguee. Usługa ta obsługuje obecnie tłumaczenia między dziewięcioma głównymi językami europejskimi.[1][2] Wykazano, że tłumaczenia DeepL brzmią nieco bardziej naturalnie dla ludzi w porównaniu z innymi ważniejszymi usługami tłumaczeniowymi, takimi jak Google Translate, Microsoft Translator i Facebook[3][4][5], wykorzystując BLEU do oceny jakości tłumaczeń w porównaniu z konkurencją[6].

Tłumaczenie za pomocą DeepL w lutym 2020 r.:

DeepL Translator to usługa tłumaczeniowa uruchomiona w sierpniu 2017 roku przez DeepL GmbH, firmę rozpoczynającą działalność wspieraną przez Linguee. Usługa ta obsługuje obecnie tłumaczenia między dziewięcioma głównymi językami europejskimi.[1][2] Wykazano, że tłumaczenia DeepL brzmią dla ludzi nieco bardziej naturalnie w porównaniu z innymi ważnymi usługami tłumaczeniowymi, takimi jak Google Translate, Microsoft Translator i Facebook,[3][4][5] przy użyciu BLEU do oceny jakości tłumaczeń w porównaniu z konkurencją.[6]

W porównaniu powyższych tekstów widać wyraźnie, że choć zasadnicza struktura tekstu wygląda tak samo jak w ubiegłym roku, to mimo wszystko szyk w zdaniach jest lepszy, a sam tekst brzmi bardziej naturalnie. Z drugiej strony, DeepL zdecydował się opisowo potraktować zwrot start-up company, choć w języku polskim start-up nie stanowi już niczego nowego i wykorzystywany jest powszechnie przy opisywaniu określonego modelu firmy.

Test #2

Tekst tłumaczony:

BLEU (bilingual evaluation understudy) is an algorithm for evaluating the quality of text which has been machine-translated from one natural language to another. Quality is considered to be the correspondence between a machine’s output and that of a human: “the closer a machine translation is to a professional human translation, the better it is” – this is the central idea behind BLEU.[1][2] BLEU was one of the first metrics to claim a high correlation with human judgements of quality,[3][4] and remains one of the most popular automated and inexpensive metrics.
Scores are calculated for individual translated segments—generally sentences—by comparing them with a set of good quality reference translations. Those scores are then averaged over the whole corpus to reach an estimate of the translation’s overall quality. Intelligibility or grammatical correctness are not taken into account[citation needed].
BLEU’s output is always a number between 0 and 1. This value indicates how similar the candidate text is to the reference texts, with values closer to 1 representing more similar texts. Few human translations will attain a score of 1, since this would indicate that the candidate is identical to one of the reference translations. For this reason, it is not necessary to attain a score of 1. Because there are more opportunities to match, adding additional reference translations will increase the BLEU score.[5]

Tłumaczenie za pomocą DeepL w styczniu 2019 r.

BLEU (dwujęzyczna ocena niedostatecznie zbadana) jest algorytmem oceny jakości tekstu, który został przetłumaczony maszynowo z jednego języka naturalnego na drugi. Jakość jest uważana za zgodność pomiędzy wynikiem pracy maszyny a wynikiem pracy człowieka: “im bliższe jest tłumaczenie maszynowe profesjonalnemu tłumaczeniu ludzkiemu, tym lepiej” – to główna idea stojąca za BLEU.[1][2] BLEU był jednym z pierwszych wskaźników, który stwierdził wysoką korelację z ludzką oceną jakości,[3][4] i pozostaje jednym z najpopularniejszych automatycznych i niedrogich mierników.

Wyniki są obliczane dla poszczególnych przetłumaczonych segmentów – generalnie zdań – poprzez porównanie ich z zestawem wysokiej jakości tłumaczeń referencyjnych. Wyniki te są następnie uśredniane w całym korpusie w celu oszacowania ogólnej jakości tłumaczenia. Kwalifikowalność lub poprawność gramatyczna nie są brane pod uwagę [konieczne cytaty].

Wyjściem BLEU jest zawsze liczba z przedziału od 0 do 1. Wartość ta wskazuje, jak bardzo tekst kandydacki jest podobny do tekstów referencyjnych, przy czym wartości bliższe 1 reprezentują bardziej podobne teksty. Niewiele tłumaczeń ludzkich uzyska wynik 1, ponieważ wskazywałoby to, że kandydat jest identyczny z jednym z tłumaczeń referencyjnych. Z tego powodu nie jest konieczne uzyskanie punktu 1. Ponieważ jest więcej możliwości dopasowania, dodanie dodatkowych tłumaczeń referencyjnych zwiększy wynik BLEU.[5]

Tłumaczenie za pomocą DeepL w lutym 2020 r.

BLEU (bilingual evaluation understudy) to algorytm do oceny jakości tekstu, który został maszynowo przetłumaczony z jednego języka naturalnego na drugi. Jakość jest uważana za zgodność między wynikami pracy maszyny a wynikami pracy człowieka: "im bardziej tłumaczenie maszynowe jest bliższe profesjonalnemu tłumaczeniu człowieka, tym lepiej" - to jest główna idea BLEU.[1][2] BLEU było jednym z pierwszych wskaźników, który twierdził, że istnieje wysoka korelacja z ludzkimi ocenami jakości,[3][4] i pozostaje jednym z najbardziej popularnych zautomatyzowanych i niedrogich wskaźników.

Wyniki obliczane są dla poszczególnych przetłumaczonych segmentów - generalnie zdań - poprzez porównanie ich z zestawem referencyjnych tłumaczeń dobrej jakości. Wyniki te są następnie uśredniane w całym korpusie, aby uzyskać ocenę ogólnej jakości tłumaczenia. Nie uwzględnia się przy tym inteligencji ani poprawności gramatycznej [potrzebne cytaty].

Wynik BLEU jest zawsze liczbą z przedziału od 0 do 1. Wartość ta wskazuje na podobieństwo tekstu kandydującego do tekstów źródłowych, przy czym wartości bliższe 1 oznaczają teksty bardziej do siebie podobne. Niewiele ludzkich tłumaczeń uzyska wynik 1, ponieważ wskazywałoby to, że kandydat jest identyczny z jednym z tłumaczeń referencyjnych. Z tego powodu nie jest konieczne uzyskanie wyniku 1, ponieważ istnieje więcej możliwości dopasowania, dodanie dodatkowych tłumaczeń referencyjnych zwiększy wynik BLEU.[5]

Także i w tym tekście widzimy wyraźną poprawę jakości tłumaczenia. „Wyniki pracy człowieka” brzmią lepiej niż „wynik pracy czlowieka”. Ostatnie zdanie pierwszego akapitu także uległo korzystnej zmianie. Dużo lepiej czyta się, że „wskaźnik twierdził, że istnieje wysoka korelacja” niż „wskaźnik, który stwierdził wysoką korelację”. Na początku trzeciego akapitu oczywiście chodziło o wynik (tak jak DeepL przetłumaczył w 2020 r.), a nie o wyjście (jak w 2019 r.). „Z tego powodu nie jest konieczne uzyskanie punktu 1” (2019) nie ma żadnego sensu w języku polskim, ale już „z tego powodu nie jest konieczne uzyskanie wyniku 1” wyraźnie mówi nam, o co chodzi w tym zdaniu. Należy zatem stwierdzić, że tekst przetłumaczony z wykorzystaniem nowych sieci neuronowych jest znacznie lepszy niż ubiegłoroczny. Kolejny punkt dla nowej metody tłumaczenia DeepL.

Test #3

Tekst tłumaczony:

Łukasz Kotkowski, Spider’s Web: Które edycje Surface cieszą się większym zainteresowaniem? Budżetowe, z mniejszą ilością pamięci i bardziej energooszczędnym procesorem, czy te najlepiej wyposażone?

Dominik Sołtysik, Surface Category Lead w polskim oddziale Microsoft: W Polsce, podobnie jak na świecie, najlepiej sprzedającym się modelem Surface jest Pro.

Wynika to z wyjątkowego form-factora, opracowanego by zapewnić użytkownikom urządzenie wszechstronne. Surface Pro jest w gruncie rzeczy ultrabookiem zamkniętym w formie tabletu – mocnym komputerem z funkcją tabletu, do tego bardzo przenośnym. To właśnie główny powód, dla którego nasi klienci wybierają najczęściej właśnie Surface Pro.

Staraliśmy się dostosować nasze produkty do potrzeb różnych grup klientów – w tym takich, którzy korzystają tylko z podstawowych funkcji komputera i cenią jednocześnie wspomnianą wcześniej wszechstronność, ale i także tych najbardziej wymagających, którzy naszych urządzeń używają do tworzenia treści – edycji zdjęć, wideo, zaawansowanych modeli 3D, architektury, programowania – gdzie moc obliczeniowa ma zasadnicze zastosowanie.

Dziś najczęściej wybieraną konfiguracją jest ta z procesorem Intel Core i5 7 gen. oraz 8 GB RAM-u, co stanowi wygodny kompromis dla większości naszych klientów. W przypadku drugiego najlepiej sprzedającego się modelu – Surface Book 2 – sytuacja wygląda zdecydowanie inaczej, najlepiej sprzedają się modele z procesorami Intel Core i7, 16 GB RAM-u i zewnętrznym GPU.

Teraz przejdźmy do tłumaczeń. Znowu pomieszałem kolejność wykorzystanych platform – wyniki w dalszej części tekstu.

Tłumaczenie za pomocą DeepL w styczniu 2019 r.

Łukasz Kotkowski, Spider’s Web: Which editions of Surface are more popular? Budgetary, with less memory and a more energy efficient processor, or the best equipped ones?

Dominik Sołtysik, Surface Category Lead in the Polish branch of Microsoft: In Poland, just like in the world, the best-selling Surface model is Pro.

This is due to the unique form-faced processor, designed to provide users with a versatile device. Surface Pro is basically an ultrabook closed in the form of a tablet – a powerful computer with tablet function and very portable. That’s the main reason our customers choose Surface Pro.

We have tried to tailor our products to the needs of different customer groups – including those who use only the basic features of a computer and value the aforementioned versatility, but also those who use our devices to create content – editing photos, videos, advanced 3D models, architecture, programming – where computational power is essential.

Today, the most popular configuration is Intel Core i5 7 gen. processor and 8 GB of RAM, which is a convenient compromise for most of our customers. For the second best-selling model, Surface Book 2, the situation is definitely different, with Intel Core i7, 16GB of RAM and an external GPU selling best.

Tłumaczenie za pomocą DeepL w lutym 2020 r.

Luke Kotkowski, Spider's Web: Which Surface editions are more popular? Budgetary, with less memory and a more energy-efficient processor, or the best equipped?

Dominik Sołtysik, Surface Category Lead in Polish branch of Microsoft: In Poland, as in the world, the best-selling Surface model is Pro.

This is due to a unique form factor, developed to provide users with a versatile device. In fact, Surface Pro is an ultrabook closed in the form of a tablet - a powerful computer with tablet functionality and very portable. This is the main reason why our customers choose Surface Pro most often.

We have tried to adapt our products to the needs of different groups of customers - including those who use only basic computer functions and appreciate the aforementioned versatility, but also the most demanding ones who use our devices to create content - photo editing, video editing, advanced 3D models, architecture, programming - where the computing power is essential.

Today, the most popular configuration is the one with a 7-generation Intel Core i5 processor and 8 GB of RAM, which is a convenient compromise for most of our customers. For the second best-selling model - Surface Book 2 - the situation is definitely different, the best selling models are those with Intel Core i7 processors, 16 GB of RAM and an external GPU.

Now let's move on to translations. Again, I mixed up the order of the platforms used - the results later on.

Czy jest zatem lepiej?

Porównując powyższe tłumaczenia mam mieszane odczucia. Z jednej strony tłumaczenia na język polski uległy wyraźnej poprawie. Nie jest jeszcze idealnie, ale widać lepsze panowanie nad strukturami gramatycznymi i nad strukturą całych zdań. Z drugiej strony tłumaczenie na język angielski wygląda gorzej, Łukasz Kotkowski zmienił imię na Luke'a, gdzieniegdzie brakuje pojedynczych wyrazów, które sprawiałyby, że tekst byłby bardziej naturalny.

Cały ten krótki eksperyment pokazuje, jak niezwykle złożonym zagadnieniem jest tłumaczenie z jednego języka na drugi. Nie można jednoznacznie stwierdzić, czy nowe rozwiązania zastosowane w DeepL poprawiają jakość tłumaczenia. W każdym przetłumaczonym tekście można znaleźć jakieś elementy, które uległy wygładzeniu i brzmią po prostu lepiej, tylko po to, aby kilka wyrazów później trafić na miejsce, gdzie cały algorytm się wyłożył i nie zrozumiał tekstu źródłowego.

Nie zrozumcie mnie źle, narzędzia takie jak DeepL, Tłumacz Google czy Bing Microsoft Translator to fantastyczne propozycje. W 90 proc. przypadków tłumaczą każdy tekst na tyle dobrze, że można zrozumieć, o co chodziło w tekście źródłowym. Niemniej jednak tekst, który wychodzi z takiego tłumacza, niemal nigdy nie jest tekstem poprawnym językowo i wymaga post-edycji, zanim zostanie zaprezentowany szerszemu gronu.

przeczytaj następny tekst


przeczytaj następny tekst


przeczytaj następny tekst


przeczytaj następny tekst


przeczytaj następny tekst