Ten mikrofon rozpozna twój głos w tłumie. Microsoft rozwiązał problem asystentów głosowych
Urządzenie nazywane jest przez Microsoft mikrofonem kolistym, zaszyte są też w nim algorytmy sztucznej inteligencji. Urządzenie rzekomo radzi sobie bez problemu z rozumieniem poleceń głosowych wydawanych w tłumie.
Microsoft, jak sam twierdzi, dokonał pewnego istotnego przełomu technicznego w dziedzinie rozpoznawania mowy. Nie osiągnął tego jednak wyłącznie programowo – jego algorytmy zostały przystosowane do stożkowatego urządzenia, które Microsoft nazywa mikrofonem kolistym (tłumaczenie moje – w oryginale brzmi to circular microphone).
Urządzenie to oraz towarzyszące mu rozwiązania programowe ponoć rozwiązuje problem, z którym wszystkie firmy parające się dziedziną cyfrowego rozpoznawania mowy mierzą się od samego początku. Nazywa się go problemem imprezy koktajlowej. Opisuje on sytuację, w której urządzenie cyfrowe ma rozpoznać polecenie głosowe w środowisku, w którym wiele osób mówi równocześnie.
Microsoft zastosował podejście hybrydowe. Sygnał jest przetwarzany zarówno przez przetwornik generujący kilka osobnych zsynchronizowanych ze sobą ścieżek dźwiękowych, jak i przez sieć neuronową.
Mikrofon rozpoznający pojedynczy głos w tłumie
Stożkowate urządzenie zaprezentowane przez Microsoft to dopiero prototyp. Nie jest jasne czy w tej formie trafi on do sprzedaży, jest to wręcz mało prawdopodobne. Choć urządzenie wygląda całkiem estetycznie i mogłoby zostać przeobrażone w inteligentny głośnik z Cortaną, to najpewniej tylko sprzęt do wewnętrznych i kontrolowanych zewnętrznych testów. Microsoft stosuje bowiem algorytmy rozpoznawania mowy w wielu usługach. I każda z nich skorzystałaby na takim usprawnieniu.
Oprócz niedostępnej w Polsce Cortany, systemy rozpoznawania mowy Microsoftu są wykorzystywane w usługach Skype i Office, są też obecne w systemie Windows 10 do wykorzystania przez specyficzne rodzaje sprzętu. Mogą z nich również korzystać klienci firmy – są one dostępne jako usługa w ramach Azure Cognitive Services.
Microsoft konsekwentnie rozwija swoje mechanizmy rozpoznawania mowy, na razie jednak większy użytek z jego technologii robią jego partnerzy niż on sam. Skype Translator odniósł sukces, jest to jednak usługa dość niszowa. Z Cortany nie korzysta w zasadzie nikt – została wyparta z rynku przez takie usługi jak Amazon Alexa czy Asystent Google. Na szczęście dla Microsoftu, źródłem przychodów o największym znaczeniu pozostaje Azure.