Weryfikacja głosem właśnie straciła sens. Można już perfekcyjnie podrobić głos
Choć próba ze sprawieniem by Skype przemówił naszym głosem, wyszła Microsoftowi mocno średnio, koncern nie składa rękawicy. Jego inżynierowie opracowali właśnie imponująco-niepokojący model SI, który do podrobienia głosu potrzebuje zaledwie trzech sekund nagrań mowy dowolnej osoby.
Uczeni z amerykańskiego Cornell University w połączeniu z inżynierami Microsoftu opracowali model językowy przetwarzający tekst na mowę. Jako głos dla modelu o wdzięcznej nazwie VALL-E nie służy predefiniowany zbiór głosów, gdyż sztuczna inteligencja jest w stanie naśladować dowolny ton, mając za próbkę jedynie trzysekundowe nagranie mowy.
Trzy sekundy wystarczą, by sztuczna inteligencja mówiła godzinami twoim głosem
VALL-E do naśladowania głosu potrzebuje nagrania mowy o długości przynajmniej trzech sekund. Oprócz odtworzenia samego głosu SI jest w stanie odwzorować emocje, które prezentuje mówca np. złość, znużenie, rozbawienie czy wstręt. Jednocześnie próbka wypowiedzi nie musi mieć żadnego związku z tekstem, który ma przetworzyć sztuczna inteligencja.
Choć model ma niezwykle imponujące możliwości, jakość nagrań, które generuje, różni się w mniejszym lub większym stopniu. Jedne z nich są idealnym naśladownictwem głosu, inne mają charakterystyczne "robotyczne" brzmienie.
Badacze wytrenowali model za pomocą zestawu danych Libri-light stworzonego przez Meta AI. Zestaw zawiera nagrania ludzkiego głosu w języku angielskim o długości w sumie 60 tysięcy godzin, pochodzących od ponad 7000 tysięcy różnych osób. Z kolei testy zostały przeprowadzone na zestawie VCTK, którego głosy pochodzą od 110 ludzi posługujących się językiem angielskim w różnych akcentach.
Sztuczna inteligencja nie miała wcześniej do czynienia z próbkami z zestawu VCTK, co pozwoliło przeprowadzić testy nauczania zero-shot - uczenia maszynowego w sytuacji, w której model nie miał wcześniej do czynienia z danymi wejściowymi i generuje dane na podstawie wcześniej wyuczonych schematów.
Zastosowania VALL-E mogą być równie imponujące, co niebezpieczne
Model VALL-E nie jest publicznie dostępny. Badacze nie chcą upubliczniać SI gdyż wymaga ona nie tylko dalszych prac, ale mogłaby zostać użyta w niewłaściwych celach - podobnie jak Google Imagen.
VALL-E mógłby być wykorzystywany do np. tworzenia deep fake'ów i podszywania się pod inne osoby w celu wyłudzenia dostępu do poufnych danych, tak jak miało to w głośnym przypadku okradnięcia banku dzięki podrobieniu głosu prezesa.
Ponieważ VALL-E mógłby tworzyć sztuczną mowę, która zachowuje tożsamość mówcy, może on nieść potencjalne ryzyko w niewłaściwym użyciu modelu, takie jak spoofing identyfikacji głosu lub podszywanie się pod konkretnego mówcę. Aby zmniejszyć ryzyko wystąpienia takich zdarzeń, możliwym jest zbudowanie modelu detekcji, aby odróżnić czy dany klip audio został zsyntetyzowany przez VALL-E.
- piszą badacze w podsumowaniu
Przy zachowaniu odpowiednich środków ostrożności, VALL-E lub inne podobne mu modele mogłyby jednak być wykorzystywane na przykład do generowania głosu osób zmarłych lub osób, które w którymś momencie życia straciły mowę - w tym w syntezatorach mowy, czy do czytania audiobooków głosem autora. Mogłyby posłużyć także do automatycznego generowania wiadomości głosowych w komunikatorach internetowych.