Polska synteza mowy podbija świat
Polskim hitem eksportowym już niedługo może zostać generowany przez komputer syntetyczny głos. Wszystko to za sprawą uznanej na świecie gdyńskiej firmy IVO Software i kilku innych przedsiębiorstw, po których usługi zaczynają zgłaszać się zagraniczne organizacje.
Sztuczna mowa w przeciągu kilku ostatnich lat rozwinęła się na tyle, że czasami trudno dostrzec różnicę, czy głos jest ludzki, czy generowany przez algorytmy matematyczne. Wydawać by się mogło, że najłatwiejszym sposobem na stworzenie syntezatora jest nagranie zdań, słów, czy sylab, odpowiednie ich przetworzenie, a później dowolne złożenie. Jednak tak stworzona mowa brzmi bardzo nienaturalnie i co gorsza - niezrozumiale dla ludzkiego ucha. Dlatego twórcy syntezatorów idą inną drogą i korzystają z połączeń fonemów czyli najmniejszych jednostek dźwiękowych.
Jak to sie robi? Syntezator nauczy się mówić ludzkim głosem, kiedy będzie dysponował należycie przygotowanym modelem, tak zwanym korpusem tekstowym czy inaczej silnikiem syntezatora. W celu jego stworzenia konstruuje się tekst zawierający maksymalnie dużo zjawisk językowych i połączeń pomiędzy dźwiękami charakterystycznymi dla danego języka. Następnie tak przygotowany dokument jest czytany przez lektora i zapisywany przez komputer w postaci matematycznej. W kolejnym kroku zapamiętana mowa jest normalizowana, tak żeby każdy dźwięk był odpowiedniej głośności i mieścił się w wybranym paśmie przenoszenia. Tak przygotowane dźwięki są zapisywane w postaci szeregu difonów czyli dwóch fonemów i przejścia dźwiękowego pomiędzy nimi. Dzięki temu odtworzona w drugim etapie mowa będzie brzmieć naturalnie.
Kiedy silnik syntezatora jest gotowy możemy podać do niego tekst w postaci cyfrowej. W pierwszym kroku jest on przekształcany przez algorytmy do postaci znormalizowanej, a następnie dzielny przez nie na mniejsze fragmenty i dopasowywany do znajdujących się w bazie difonów. Ostatnia faza, to cyfrowa zamiana przygotowanych porcji danych na dźwięki, w ten sposób powstaje mowa zbliżona w odczuciu słuchowym do ludzkiej. Co ważne, dzięki takiemu podejściu syntezator powinien być w stanie przekształcić zapisany dowolny tekst z formy cyfrowej na mowę, nawet jeśli w trakcie sesji z lektorem dane słowa nie zostały użyte.
Istniejące na rynku syntezy mowy firmy rywalizują ze sobą w celu stworzenia jak najlepszych jakościowo algorytmów generujących głos. Jedną z nich jest polska IVO Software, założona w 2001 roku przez Łukasza Osowskiego i Michała Koszczuka. Na pierwsze uznanie rynku syntezy młodzi twórcy musieli poczekać kilka lat. Udało im się je osiągnąć produktem IVONA, który wykorzystując difony, a nie pojedyńcze głoski, zwiastował nową jakość w generowaniu sztucznej mowy. Jego wczesna wersja pojawiła się w 2005 roku, a już rok później w międzynarodowym konkursie Blizzard Challenge 2006 zdobyła pierwszą nagrodę. We wrześniu tego roku, juz po raz trzeci wygenerowany za pomocą IVONY tekst zdystansował jakościowo światową czołówkę takich zagranicznych rywali jak: IBM, Microsoft, Nokia, czy Toshiba nie mówiąc o specjalistycznych firmach Acapela, Careproc, Loquendo, Nuance czy Svox. Nic zatem dziwnego, że IVO Software zaczyna zbierać zamówienia poza Polską. - W ostatnim roku zanotowaliśmy obrót rzędu 2,5 mln złotych, w tym roku spodziewamy się około 3 mln. Co roku wydajemy blisko jedna trzecią przychodów na badania i rozwój ? mówi Łukasz Osowski, prezes IVO Software.
Jest o co walczyć. Walt Tetschner, ekspert na rynku syntezy mowy szacuje, że w tym roku jego wartość sięgnie 667 mln dolarów, a w 2013 roku będzie to już blisko 1,5 miliarda. Co ważniejsze, IVO Software nie jest w Polsce osamotnione na naszym rynku. Oprócz gdyńskiego innowatora Primespeech oferuje serwery wykorzystujące rozpoznawanie i syntezę mowy do wspomagania pracy infolinii a Unikkon Inegral świadczy usługi rozpoznawania mowy z zakresu terminologii medycznej.
Technologia syntezy mowy nie boi się kryzysu, a nawet doskonale pozwala go przezwyciężyć. Firmy przygotowując plany oszczędnościowe często decydują się na zmniejszenie liczby pracowników, np. w przypadku call center, doskonale mogą ich zastąpić głosy wygenerowane przez syntezator, a koszty zwracają się nawet już po pół roku. Kiedy dzwonimy na infolinię słyszymy osobę informującą nas o promocjach, funkcjach przypisanych do poszczególnych klawiszy telefonu, czy czytającą dane z faktury. W takich sytuacjach często mamy do czynienia z głosem syntezowanym, a nie nagraniem lektora, co przynosi korzyści zarówno firmom, jak i konsumentom. Korporacje mają pewność, że w dowolnym momencie mogą przeprogramować syntezator i wygenerować do czytania nowe teksty, które będą brzmiały, tak jak te stworzone wcześniej. Ważnym aspektem jest również to, że syntezator jest do dyspozycji dzwoniącego 24 godziny na dobę i nigdy nie jest ani zmęczony, ani nie w humorze. Zaprzęgnięcie do pracy syntezy mowy pozwala ograniczyć liczbę konsultantów do minimum, co również wiąże się z dużymi oszczędnościami.
Najpierw jednak trzeba wydać po kilka tysięcy złotych na wybraną licencję. Koszt przygotowania jednego kanału obsługiwanego przez dowolny z głosów IVONY to około 2000 złotych, Primespeech ASR Server, który ma dodatkowo wbudowaną technologię rozpoznawania poleceń wypowiadanych przez dzwoniącego, należy zapłacić około 2500 złotych. Ofertę dla call center czy infolinii można również przygotować bardziej wizerunkowo, zatrudniając jako lektora potrzebnego do stworzenia unikatowego głosu, znaną osobę np. linię ING mógłby obsługiwać Marek Kondrat, a w zasadzie jego głos, który identyfikowany jest z tą marką. Jednak przy takim założeniu koszt przedsięwzięcia wzrasta do kilkudziesięciu, czy kilkuset tysięcy złotych, oczywiście ze względu na honorarium artysty.
Usługi dla call center, to nie jedyny rynek, na którym wykorzystywana jest synteza mowy. Drugim są wirtualni asystenci, tzw. chatter boty. Jest to oprogramowanie działające na stronie WWW i przedstawiające wirtualną postać komunikującą się z użytkownikiem poprzez sztucznie generowaną mowę. W niektórych przypadkach w chatter botach możemy wymieniać zdania z asystentem nie tylko za pośrednictwem klawiatury, ale również i mikrofonu. Liderami polskiej infromatyki w tworzeniu inteligentnych botów są firmy Fido:Intelligence, Stanusch Technologies i InteliWise startujące właśnie na rynku amerykańskim. Ta pierwsza firma na zlecenie Mennicy Polskiej powołała niedawno do wirtualnego życia króla Stanisława Augusta Poniatowskiego. Odpowiada on za interakcję z internautami, którzy zechcą dowiedzieć się więcej na temat produktów oferowanych przez Mennicę.
Innym z przykładów wykorzystania sztucznej mowy w Internecie jest udźwiękowienie stron. Znajdziemy je np. na portalu onet.pl ? gdzie czytane są informacje ? czy w słowniku megaslownik.pl, który podaje poprawną wymowę danego słowa. Cena licencji za udostępnienie internautom takiego udogodnienia na stronach in formacyjnych czy słownikowych waha się w zależności od liczby odsłuchań w granicach 1900 do 6000 złotych.
Równie często syntezę mowy wykorzystuje się w nauce języków przez internet. Generowanego przez komputer głosu używa się również jako podkładu lektorskiego w prezentacjach multimedialnych, spotach promocyjnych, czy filmach. Już teraz produktu IVO Software ? Expressivo (który z dowolnym głosem jest do kupienia za około 100 złotych) można używać w popularnych aplikacjach do odtwarzania filmów. Przyda się to w sytuacji kiedy np. będziemy mieć płytę DVD bez polskiego lektora, a będziemy chcieli obejrzeć film ?po polsku?.
Sztuczną mowę spotykamy również w czasie jazdy autobusem, czy tramwajem lub w trakcie oczekiwania na metro. Komunikaty głosowe, które informują nas o aktualnej czy następnej stacji, często przygotowane zostały w syntezatorze. Dzięki temu brzmią one zawsze tak samo czysto i wyraźnie. Dodatkowo w czasie zmian (np. pojawienia się nowych przystanków) nie będzie problemów z przygotowaniem nagrania z tym samym cyfrowym lektorem ? nie będzie potrzebna osoba, która brała udział w stworzeniu głosu syntezatora. IVO Software, może pochwalić się kontraktem w Wielkiej Brytanii: system informacji dla pasażerów komunikacji publicznej w Londynie będzie używał jednego z nowych głosów przygotowanych przez IvoSoftware - Amy lub Briana. - Idąc za ciosem podpisaliśmy umowę z brytyjską organizacją działającą na rzecz osób niewidomych: Royal National Institute for Blind ? mówi Łukasz Osowski. Jednak IVO wspiera także polskie ośrodki osób niedowidzących i niewidomych. Dzięki integracji funkcji głosowych w urządzeniach takich jak skaner, czy komórka, osoby te mogą bez przeszkód odczytywać książki lub korzystać z telefonów. Za zestaw rehabilitacyjny IVONA z ośmioma głosami trzeba zapłacić około 700 złotych, ale 90 proc. tej kwoty zwraca Państwowy Fundusz Rehabilitacji Osób Niewidomych.
Wydaje się, że nieuchronnie zbliżamy się do granicy, w której komputer będzie mógł zastąpić człowieka, czy to w notowaniu mówionego tekstu, czy w jego odtwarzaniu. Niedługo większość infolinii, komunikatów na przystankach czy lektorów może zostać zastąpiona syntezatorami. Na szczęście do części zadań nadal będzie potrzebny człowiek, bo my w przeciwieństwie do komputerów, nie jesteśmy zaprogramowani i na niespodziewane zdarzenia zareagujemy naturalnie, a najmądrzejszy komputer wtedy ...głupieje.