Weryfikacja głosem właśnie straciła sens. Można już perfekcyjnie podrobić głos

Choć próba ze sprawieniem by Skype przemówił naszym głosem, wyszła Microsoftowi mocno średnio, koncern nie składa rękawicy. Jego inżynierowie opracowali właśnie imponująco-niepokojący model SI, który do podrobienia głosu potrzebuje zaledwie trzech sekund nagrań mowy dowolnej osoby.

Malwina Kuśmierek

12.01.2023 06:20

Weryfikacja głosem właśnie straciła sens. Można już perfekcyjnie podrobić głos

REKLAMA

Uczeni z amerykańskiego Cornell University w połączeniu z inżynierami Microsoftu opracowali model językowy przetwarzający tekst na mowę. Jako głos dla modelu o wdzięcznej nazwie VALL-E nie służy predefiniowany zbiór głosów, gdyż sztuczna inteligencja jest w stanie naśladować dowolny ton, mając za próbkę jedynie trzysekundowe nagranie mowy.

Badacze opublikowali wstępną wersję publikacji naukowej opisującej VALL-E w archiwum arXiv, z kolei na specjalnej stronie przygotowanej w serwisie GitHub możemy odsłuchać możliwości sztucznej inteligencji.

REKLAMA

Trzy sekundy wystarczą, by sztuczna inteligencja mówiła godzinami twoim głosem

VALL-E do naśladowania głosu potrzebuje nagrania mowy o długości przynajmniej trzech sekund. Oprócz odtworzenia samego głosu SI jest w stanie odwzorować emocje, które prezentuje mówca np. złość, znużenie, rozbawienie czy wstręt. Jednocześnie próbka wypowiedzi nie musi mieć żadnego związku z tekstem, który ma przetworzyć sztuczna inteligencja.

Teraz możesz zobaczyć papieża jedzącego kremówki i Kermita w Czarnobylu. Wpisujesz hasło, a strona zamieni je w obrazek

Choć model ma niezwykle imponujące możliwości, jakość nagrań, które generuje, różni się w mniejszym lub większym stopniu. Jedne z nich są idealnym naśladownictwem głosu, inne mają charakterystyczne "robotyczne" brzmienie.

Badacze wytrenowali model za pomocą zestawu danych Libri-light stworzonego przez Meta AI. Zestaw zawiera nagrania ludzkiego głosu w języku angielskim o długości w sumie 60 tysięcy godzin, pochodzących od ponad 7000 tysięcy różnych osób. Z kolei testy zostały przeprowadzone na zestawie VCTK, którego głosy pochodzą od 110 ludzi posługujących się językiem angielskim w różnych akcentach.

Sztuczna inteligencja nie miała wcześniej do czynienia z próbkami z zestawu VCTK, co pozwoliło przeprowadzić testy nauczania zero-shot - uczenia maszynowego w sytuacji, w której model nie miał wcześniej do czynienia z danymi wejściowymi i generuje dane na podstawie wcześniej wyuczonych schematów.

Zastosowania VALL-E mogą być równie imponujące, co niebezpieczne

Model VALL-E nie jest publicznie dostępny. Badacze nie chcą upubliczniać SI gdyż wymaga ona nie tylko dalszych prac, ale mogłaby zostać użyta w niewłaściwych celach - podobnie jak Google Imagen.

VALL-E mógłby być wykorzystywany do np. tworzenia deep fake'ów i podszywania się pod inne osoby w celu wyłudzenia dostępu do poufnych danych, tak jak miało to w głośnym przypadku okradnięcia banku dzięki podrobieniu głosu prezesa.

REKLAMA

Przy zachowaniu odpowiednich środków ostrożności, VALL-E lub inne podobne mu modele mogłyby jednak być wykorzystywane na przykład do generowania głosu osób zmarłych lub osób, które w którymś momencie życia straciły mowę - w tym w syntezatorach mowy, czy do czytania audiobooków głosem autora. Mogłyby posłużyć także do automatycznego generowania wiadomości głosowych w komunikatorach internetowych.

REKLAMA

Malwina Kuśmierek

12.01.2023 06:20

Tagi: Microsoft Sztuczna inteligencja (AI)

Najnowsze

21:09

Test ASUS ROG Xbox Ally. Microsoft miał trzy lata i je zmarnował

Aktualizacja: 2025-10-29T21:09:37+01:00