Wystarczy malutka próbka, a komputer zacznie mówić głosem dowolnego człowieka. Nie, to nie science-fiction
Inżynierowie firmy Lyrebird stworzyli generator mowy, który będzie w stanie udawać każdego człowieka na Ziemi. Wystarczy malutka próbka głosu, a komputer przemówi głosem dowolnego człowieka. Algorytmy potrafią już udawać całkiem przekonująco prezydenta Stanów Zjednoczonych.
Wielokrotnie w filmach i grach wideo science-fiction obserwowaliśmy hakerów, którzy łamali zabezpieczenia biometryczne oparte o głos. Wystarczyła im do tego mała próbka głosu, by komputery na jej podstawie spreparowały dowolną wypowiedź tak sprofilowanego człowieka.
Lyrebird uważa, że komputery pozwolą osiągnąć nam taki efekt już teraz.
Kanadyjski startup chwali się osiągnięciami z dziedziny cyfrowego generowania mowy. Ich algorytmy mają być w stanie odtworzyć charakterystyczną barwę głosu danego człowieka po przeanalizowaniu znacznie krótkiej próbki niż rozwiązania tego typu stosowane do tej pory jak np. Project VoCo, który potrzebuje nagrania o długości 20 minut.
Do rozwijania technologii generowania głosu wykorzystywane jest uczenie maszynowe i sztuczna inteligencja. To między innymi dzięki temu korporacje są w stanie tworzyć kolejnych cyfrowych asystentów, którzy nie przemawiają ludzkim, nagranym wcześniej głosem. W ten sposób można z nimi w ograniczonym stopniu porozmawiać.
Lyrebird wystarczy teraz zaledwie minuta nagrania, by imitować prawdziwą osobę.
Technologia cyfrowego generowania mowy stale się rozwija. Lyrebird pochwalił się swoimi wynikami, prezentując między innymi cyfrowo wygenerowany głos... prezydenta Stanów Zjednoczonych, czyli Donalda Trumpa.
Wykorzystanie charakterystycznego głosu tak kontrowersyjnej postaci to bardzo ciekawy zabieg marketingowy kanadyjskiej firmy. Ponieważ firma jest startupem, to nawet pokusiła się o przygotowanie sfingowanego dialogu Donalda Trumpa, Baracka Obamy i Hillary Clinton na temat startupów.
Efekty nie są idealne, ale i tak robią wrażenie.
Materiały reklamowe pokazują dobry kierunek, chociaż do imitacji głosu nie do odróżnienia od prawdziwego człowieka jeszcze trochę brakuje. Niemniej jednak możliwość naśladowania ludzi nawet w takim stopniu przy zaledwie minutowej próbce jest już sporym osiągnięciem.
Firma chwali się przy tym, że oprócz generowania samego głosu jest w stanie nadawać wypowiedziom wydźwięk emocjonalny. Dzięki temu cyfrowo generowany głos będzie mógł udawać osobę sympatyczną, zdenerwowaną lub zestresowaną. Nie da się jednak niestety sprawdzić, czy tak jest faktycznie.
To jak naprawdę sprawdzają się algorytmy Lyrebird, będą mogli ocenić użytkownicy po ich samodzielnym przetestowaniu.
Najbardziej takimi testami będą zainteresowani przedstawiciele firm, które będą rozważać wykupienie technologii dla siebie. Jak podają twórcy, tego typu generator mowy może przydać się firmom nagrywającym audiobooki oraz nawet twórcom filmów animowanych i gier wideo.
Jedyne obawy może budzić to, jak wykorzystane zostaną w przyszłości tego typu technologie przez osoby o niezbyt szlachetnych zamiarach. W erze fake news nietrudno będzie oszukać opinię publiczną, dosłownie wkładając politykom i celebrytom w usta słowa, których nigdy nie wypowiedzieli...