Oczy i dłonie to najmniej wydajny sposób komunikacji z maszynami
Jeszcze niedawno sceptycy przekonywali, że roboty długo nie będą zdolne do poruszania się w sposób zbliżony do człowieka. Łatwiejsze było zaprogramowanie komputera tak, by wygrał z nami w chińską grę GO, niż zbudowanie robota, którego gesty cechowałyby się naturalnością. Okazało się, że sceptycy nie mieli racji.
Dzisiaj możemy podziwiać akrobacje groźnie wyglądających stworów wyprodukowanych przez firmę Boston Dynamics. Roboty stają się sprawnymi wojownikami lub pracownikami przenoszącymi ciężkie towary, a ich coraz większe wygimnastykowanie imponuje. Sztuczna Inteligencja „naturalizuje” swoje zachowanie nie tylko na obszarze robotyki.
Maszyny mówią
Z roku na rok duże zmiany zachodzą w kwestii przetwarzania ludzkiego głosu przez komputery. Długo zastanawiano się nad tym, w jaki sposób precyzyjnie dekodować język naturalny tak, by ułatwić sobie współpracę człowieka z maszynami. Intensywne badania dotyczące przetwarzania komunikatów głosowych prowadzono już w latach 80. ubiegłego wieku. Uczestniczący w eksperymentach komputer IBM potrafił rozpoznawać kilkanaście tysięcy słów, ale jeśli chodzi o rozumienie całych zdań wypowiadanych ciągiem, to radził sobie zaledwie z kilkoma. Na przełom trzeba było trochę poczekać, aż do roku 1997.
Wtedy właśnie program Dragon's Naturally Speaking zaskoczył wszystkich zdolnością rozpoznawania stu słów wypowiadanych bez przerwy w ciągu minuty. Jeśli chodzi o przełom w eksperymentach największym wyzwaniem dla specjalistów był (i ciągle w pewnym stopniu pozostaje) fakt, że wypowiadane przez nas komunikaty zawierają nie tylko logiczny sens, ale także informacje związane z kontekstem sytuacyjnym lub emocjami. Dla komputera zrozumienie pytania „jaka będzie pogoda” i odpowiedź na nie, to rzeczy coraz prostsze.
Bardziej problematyczne staje się zrozumienie sensu sformułowań w rodzaju „i co, pewnie na spacerze znowu przyda mi się parasol?” Druga fraza jest większym wyzwaniem, bo zawarte są w niej są ironia, aluzja i odwołanie do czasu przeszłego Tego typu formy właściwe dla ludzkiej komunikacji są ciągle najtrudniejsze dla maszyn. Ale postęp, jaki się tu dokonuje jest szybki.
Pytamy nie tylko o pogodę
Dzisiaj komputery potrafią przetwarzać komunikaty głosowe z bardzo dużą dokładnością (błąd wynosi zaledwie 5 procent), a ich coraz większa zdolność do rozumienia złożonych kontekstów jest poważnym krokiem w rozwoju głosowej technologii algorytmicznej. Dzięki intensywnej pracy trenerów botów, którzy zajmują się „karmieniem” maszyn danymi w postaci ludzkich wypowiedzi, doświadczamy coraz większej naturalności w komunikacji ze sprzętem elektronicznym.
Używając własnego głosu i przemawiając do stojących na biurku głośników, możemy pytać o pogodę, regulować temperaturę w mieszkaniu i kupować towary w sklepie internetowym. A boty głosowe bez problemów wcielają się w role naszych asystentów, którzy posługują się coraz doskonalszymi konstrukcjami językowymi. Nie można odmówić im wdzięku i umiejętności radzenia sobie z sytuacjami komunikacyjnie złożonymi. Zobaczmy ten film – link.
Czarny piątek i inne historie
W ostatnich latach, jednym z kluczowych momentów w rozwoju zjawiska było pojawienie się inteligentnej aplikacji Siri wprowadzonej na rynek przez Apple. To właśnie ona zademonstrowała szerszej publiczności, jakie możliwości tkwią w tej nowej technologii. Po Siri, Microsoft uruchomił Cortanę, a Amazon Alexę. Ostatnimi czasy rozpędza się na rynku Google Assistant. Interfejsy głosowe trafiają już do bankowości i handlu, a firmy z innych branż z coraz większą ochotą podłączają się do tego nowego trendu.
Microsoft, Amazon, Apple, Google, Facebook, obserwując przychylne reakcje rynku, zaczynają wyścig w dokonywaniu nowych wdrożeń. Google rozpoczął współpracę z Starbucksem, dzięki czemu asystent będzie mógł składać zamówienie w imieniu stałego klienta. Podczas jazdy samochodem, przy pomocy asystenta głosowego, będzie można też dogadywać się z nawigacją z Google Maps. Amazon mocno pracuje nad rozwojem systemu, dzięki któremu sprzedaż i zakup każdego towaru będzie zwykłą rozmową klienta z komputerem.
O tym, że nowe możliwości technologii mogą zachwycić indywidualnych użytkowników, przekonali się rok temu pracownicy działów sprzedaży właśnie tej firmy. Najwięksi optymiści nie przewidzieli tego, co stanie się w „czarny piątek” (czyli dzień w którym Amerykanie korzystają z olbrzymich wyprzedaży) 2018 roku. Właśnie tego dnia zainteresowanie głośnikami Alexa przekroczyło wszelkie przewidywania. Klienci wydali na sprzęt Amazona ponad pięć miliardów dolarów! Oczywiście mówimy o akcji promocyjnej. Ale rosnące zainteresowanie technologią głosową wydaje się już czymś większym niż tylko reakcją na promocje.
Liczby też już mówią
Raport Voice Labs z roku 2018 wykazuje, że rok temu w użyciu znajdowało się 39 miliony inteligentnych głośników, a zainteresowanie nimi wykazywali klienci z wielu grup wiekowych. Według prognoz funduszu inwestycyjnego RBC Capital do 2020 roku na całym świecie będzie pracować blisko 130 milionów urządzeń bezpośrednio podłączonych do Alexy. Ona sama, w ciągu najbliższych dwóch lat ma przynieść Amazonowi 10 miliardów dolarów przychodów.
Istotne dla prognozowania tendencji rozwojowych mogą się okazać też dane Google. Według koncernu, jeśli chodzi o przeszukiwanie internetu za pomocą urządzeń mobilnych, 20 procent użytkowników używa do tego celu głosu. W ciągu najbliższych dwóch lat liczba ta ma wzrosnąć o kolejne 10 procent. Jeśli chodzi o sam rynek brytyjski, to według agencji badawczej Mintel, aż 62 procent Brytyjczyków używa urządzeń głosowych do zakupu produktów, słuchania muzyki i wyszukiwania stron w sieci. Liczby te już sporo mówią o rozwoju zjawiska. Warto też jednak przyjrzeć się nieco bardziej krytycznym opiniom na jego temat.
Uwaga na manipulacje
Jeszcze dwa lata temu uwagę mediów bardziej przyciągały informacje o niepowodzeniach koncernów na drodze do sukcesu. W 2016 roku Microsoft zrezygnował z prac nad chatbotem Tay, kiedy okazało się, że „karmi się” on obecnymi w sieci wulgaryzmami i wykorzystuje je do własnej aktywności. Jednocześnie media śledzące wydarzenia w branży zaczęły być bezwzględne w ujawnianiu przykładów, wskazujących na to, że rozwój rynku botów może prowadzić do różnorodnych manipulacji. W sieci zaczęły pojawiać się relacje użytkowników, którzy skarżyli się na to, że Siri czy Echo uruchamiają się samodzielnie w nieoczekiwanych momentach.
Niektórzy krytycy wskazują na niebezpieczeństwa wycieków do sieci zapisanych rozmów użytkownika z inteligentnymi głośnikami (możliwe jest ich kasowanie, tylko trzeba o tym wiedzieć i pamiętać). Mamy tu więc do czynienia z aktualną kwestią ochrony danych osobowych i bezpiecznego używania kamer i głośników. Pojawiają się też wątpliwości dotyczące rzetelności głosowych asystentów.
Czy odpowiedzi Alexy, Cortany, Google Assistant – na te bardziej złożone pytania klientów - nie będą zbyt mocno przeniknięte manipulacjami marketingowymi? Przy okazji kwestii marketingu, warto zaznaczyć jak dużym wyzwaniem dla specjalistów zajmujących się pozycjonowaniem będzie przejście na wyszukiwanie głosowe. Może to oznaczać rewolucję dla całego SEO. Wartość i znaczenie stron internetowych opartych na przekazie wizualno-tekstowym i tekstowych reklam w wyszukiwarkach, mogą się obniżyć.
Inteligentne domy potrzebują głosu
Przyczyn zainteresowania ze strony użytkowników indywidualnych i firm możemy szukać w kilku czynnikach. Wykorzystywanie głosu do obsługi urządzeń mocno promują producenci sprzętów w inteligentnych domach. Coraz popularniejsza idea „smart houses” i Internet Rzeczy mają zasadnicze znaczenie dla tendencji wzrostowych w obrębie przedstawionego trendu.
Nie bez znaczenia jest też postawa producentów takich jak: Apple, Google, Amazon, którzy postanowili intensywnie promować nową technologię. A jeśli chodzi o wartości, które ona niesie? Myślę, że używanie głosu do obsługi urządzeń technologicznych dobrze koresponduje z głównymi postawami współczesnego klienta. Jeśli chodzi o zakupy, dostęp do informacji e i komunikację chcemy wygody, przyjemności i szybkich efektów. Głosowe sterowanie naszym życiem wydaje się te potrzeby zaspakajać. Krótkie, szybkie wypowiedzi i polecenia podczas zakupów i szybkie reakcje aplikacji lub asystentów – jako obowiązujący model – mogą się więc przyjąć.
Dłonie o oczy będą odpoczywać
Na początku tekstu pytałem o to, czy możemy liczyć się z poważną zmianą, łącznie ze znikaniem z rynku sprzętu opartego na interfejsach dotykowych. Czy to nastąpi – tego nie można orzekać jednoznacznie. Jeśli wziąć jednak pod uwagę fakt, że w ciągu kilku lat technologia potrafiła zmieniać diametralnie nasze zachowania, nie wykluczałbym takiej możliwości.
Przecież jeszcze niedawno nie używaliśmy smartfonów. A dzisiaj te mocno wydajne mini komputery zmieniają nasze życie na wielu poziomach. Nie widzę więc przeszkód, by w ciągu kilku lat doświadczyć kolejnej radykalnej zmiany. Może ona oznaczać, że nasze dłonie i oczy zaczną odpoczywać, a my będziemy coraz częściej przemawiać do naszych elektronicznych przyjaciół.
Head of Services CEE, Microsoft. Kieruje usługami Microsoft w 36 krajach, ich zakres obejmuje doradztwo biznesowe i konsulting technologiczny, w szczególności w takich obszarach jak big data i sztuczna inteligencja, aplikacje biznesowe, cybersecurity, usługi premium oraz cloud. Poprzednio jaklo Vice President Digital McKinsey odpowiedzialny za region CEE oraz usługi łączące doradztwo strategiczne i wdrażanie zaawansowanych rozwiązań informatycznych. Od kompleksowej transformacji cyfrowej przez szybkie wdrożenia aplikacji biznesowych, rozwiązania i analizy big data, biznesowe zastosowania sztucznej inteligencji po rozwiązania blockchain i IoT. Wcześniej Norbert pełnił funkcję Prezesa Zarządu i CEO Atos Polska, był również szefem ABC Data S.A. oraz Prezesem Zarządu i CEO Sygnity S.A. Poprzednio również pracował w firmie McKinsey jako partner, był dyrektorem działu usług doradczych, oraz rozwoju biznesu firmy Oracle.
Pasją Norberta są najnowsze technologie robotyzacja, zastosowania sztucznej inteligencji, blockchain, VR i AR, Internet Rzeczy, oraz ich wpływ na gospodarkę i społeczeństwo. Więcej na ten temat można przeczytać na blogu Norberta.