Meta ma potężną technologię, która w dodatku działa po polsku. Ale boi się ją udostępnić

Wielu Polaków nie wyobraża sobie polskiej kultury popularnej bez głosu Jarosława Boberka czy Piotra Fronczewskiego. Nowe dokonanie Mety daje nadzieję, że wiele głosów pozostanie z nami na zawsze, a gwarantować ma to model AI tekst-na-głos Voicebox od Meta AI. Jednak póki co to tylko teoria, bo koncern boi się oddać model do użytku szerszemu gronu

Malwina Kuśmierek

20.06.2023 19:12

Meta ma potężną technologię, która w dodatku działa po polsku. Ale boi się ją udostępnić

REKLAMA

Dyskurs o generatywnej AI w zdecydowanej większości przypadków ogranicza się do tekstu i obrazów. Jednak błędnym założeniem jest, że na tym kończą się możliwości sztucznej inteligencji - przecież zeszłoroczny wywiad ze Stevem Jobsem sam się nie zrobił, a coraz głośniej mówi się o wykorzystaniu szeroko pojętych generatorów głosu czy obrazu w kampaniach phishingowych. Współcześnie można podrobić nawet wizerunek znajomych.

Zapewne jest to jeden z powodów, dla których Meta nie oddaje szerszemu gronu dostępu do Voicebox AI - nowego modelu generatywnej sztucznej inteligencji, który według koncernu jest bardziej zaawansowany niż jakikolwiek inny obecnie istniejący model przetwarzający tekst na mowę. Jednak co ciekawsze z naszej perspektywy, Meta wytrenowała model na treściach polskojęzycznych i deklaruje możliwości generowania w języku polskim.

REKLAMA

Kamień milowy w rozwoju generowania głosu. Meta wyszła ze strefy komfortu zwanej English

Jak informuje koncern wyjątkowość modelu polega na jego możliwości uczenia się metodą in-context learning. W dużym uproszczeniu, model jest w stanie wypełnić dane zadanie jedynie po pokazaniu mu kilka przykładów, których wcześniej nie uwzględniono w danych treningowych. W przypadku Voicebox AI zadaniem może być nie tylko generowanie głosu, ale także edycja wygenerowanego nagrania czy jego stylizacja (np. zmiana tonu głosu). Voicebox AI jest w stanie także edytować nagrania, których nie wygenerował sam i usuwać z nich szumy i zniekształcenia takie jak klaksony czy szczekanie psa.

Przed wprowadzeniem Voicebox, generatywna sztuczna inteligencja dla mowy wymagała specjalnego szkolenia dla każdego zadania przy użyciu starannie przygotowanych danych szkoleniowych. Voicebox wykorzystuje nowe podejście do uczenia się na podstawie surowego dźwięku i towarzyszącej mu transkrypcji. W przeciwieństwie do autoregresywnych modeli do generowania dźwięku, Voicebox może modyfikować dowolną część danej próbki, a nie tylko koniec danego klipu audio.

Voicebox AI został wytrenowany na ponad 50 tysiącach godzin nagrań głosu i transkrypcji z publicznie dostępnych audiobooków, nagranych w językach angielskim, francuskim, hiszpańskim, niemieckim, polskim i portugalskim. Badacze z Meta AI porównali Voicebox AI do dwóch największych podobnych mu modeli: VALL-E od Microsoftu oraz YourTTS. W obu porównaniach Voicebox wypada lepiej pod względem podobieństwa stylu wygenerowanego audio do próbki oraz tworzy mniej błędów. Jednocześnie Voicebox AI te same polecenia przetwarza 20 razy szybciej w porównaniu do VALL-E i YourTTS.

Procent generowanych błędów słownych: mniej = lepiej / Źródło: Meta AI

Podobieństwo wygenerowanego głosu do oryginalnych próbek głosu: większa = lepiej / Źródło: Meta AI

REKLAMA

Mimo że imponujący, model nie jest idealny. W publikacji Meta AI opisującej model badacze zastrzegają, że choć bardzo dobrze radzi sobie z czystymi, książkowymi dialogami, może mieć problemy z pracą z nieformalnymi wypowiedziami, które zawierają zwroty z języka potocznego i niewerbalne komunikaty dźwiękowe (np. śmiech czy przytaknięcia).

Jednocześnie Meta boi się potencjalnego użycia w niewłaściwy - o ile nie po prostu obiektywnie zły sposób, dlatego, póki co Voicebox możemy jedynie posłuchać na nagraniach opublikowanych na blogu Meta AI.

REKLAMA

Malwina Kuśmierek

20.06.2023 19:12

Tagi: Meta Sztuczna inteligencja (AI)

Najnowsze

12:55

Allegro rozdaje kupony i pakiety Smart! za darmo. Będę grał i oszczędzał na zakupach

Aktualizacja: 2025-08-19T12:55:33+02:00