Czy mrówka uniesie słonia? Polska sztuczna inteligencja zaszachuje Asystenta Google’a, Aleksę i Siri razem wziętych

A przy okazji okaże się milowym krokiem w dziedzinie komercyjnie dostępnej sztucznej inteligencji. Asystent SaraCam pojawi się na rynku jeszcze w tym roku. Następny w kolejności jest projekt silnej sztucznej inteligencji.

SaraCam będzie asystentem opierającym się na Aleksie od Amazona i Google Home. Jednak zaoferuje też dodatkowe funkcje dzięki wbudowanej kamerze. SaraCam będzie śledziła użytkownika, wchodziła z nim w dialog i tworzyła relacje.

Nie trzeba jej też będzie aktywować żadnym hasłem, jak np. „Alexa która godzina” czy „OK Google”. Asystent wykryje bowiem spojrzenie w kamerą i automatycznie aktywuje mikrofon.

Docelowo ma to działać, jak na poniższym wideo.

Pomysłodawcą urządzenia i głównym programistą jest Artur Majtczak, współzałożyciel i CTO ALLPlayer Group, czyli firmy stojącej za odtwarzaczem wideo, z którego korzystają miliony użytkowników. Jako prezes zarządu towarzyszy mu Maciek Matuszewski, który podobną funkcję pełni również w ALLPlayerze. Dwójkę uzupełnia zespół trzech programistów – ekspertów w zakresie głębokiego uczenia.

Milion złotych na asystenta

Stworzenie SaraCam to projekt o budżecie 1,23 mln zł, którego trzy czwarte stanowią środki unijne. Do wsparcia PARP-u ma jeszcze dołączyć kampania na Kickstarterze i testy wśród użytkowników ALLPlayera.

O tym dlaczego tytułowe pytanie jest tak ważne w kontekście asystentów i na jakim stadium stoi rozwój sztucznej inteligencji rozmawiam z mózgiem projektu: Arturem Majtczakiem.

Bizblog.pl poleca

Czy nie obawiacie się, że ludzie nie będą chcieli być non stop monitorowani? Kamera będzie przecież podłączona do internetu, więc teoretycznie można się do niej włamać.

Zaczynamy żyć w społeczeństwie monitorowanym i powoli się do tego przyzwyczajamy. Kamery w sklepach i na ulicy zupełnie nas już nie irytują, ale kamery w domu to trochę inna sprawa. Zaklejamy kamery w laptopach, ale nie pamiętamy zupełnie o telefonach.

Wątpię, czy się przyzwyczajamy. Facebook Portal nie odniósł w końcu sukcesu. Amazon czy Google dysponują zaawansowaną technologią, a nie dodają kamery do asystentów.

Jeszcze nie dodają. Małe, szybkie i ładne urządzenie, które miałoby być wszechstronnym asystentem nie jest łatwe do zrobienia. Jeżeli już ktoś je wykona, to wyceni je na 1000-2000 dol. Nie byłoby to urządzenie dla mas.

Samo rozpoznawanie twarzy wymaga sporej mocy komputerowej znacząco większej, niż zapewniają to proste mikrokomputery.

Uda się wam to, co nie udało się armii inżynierów Google czy Amazona?

Wymyśliliśmy nowy sposób rozpoznawania obiektów wielokrotnie szybszy niż metody oparte na sieciach neuronowych czy deep learningu, jak klasyfikator kaskadowy Haara. Wykrywanie twarzy, postaci przodem czy człowieka idącego tyłem nie jest dla nas problemem nawet na niewielkiej mocy mikrokomputerze.

To wasza autorska technologia?

Tak.

W takim razie jak udało się ją opracować?

Obecne systemy rozpoznawania obrazu wymagają uczenia tysiącami podobnych obiektów. Czy my musimy oglądać coś 1000 razy, aby rozpoznać to chwilę później? Czy jak obejrzymy to kolejne 1000 razy to rozpoznamy to szybciej? Często wystarczy jedno spojrzenie. Tak samo powinien działać komputer.

Łatwo powiedzieć.

I dużo trudniej zrobić. Upraszczając, komputer widzi w jednym momencie jeden punkt obrazu, my widzimy od razu cały obraz. Nasza metoda próbuje nauczyć komputer widzieć podobnie jak my – całość obrazu, niezależnie od jego rozdzielczości, kolorów czy kąta obrotu.

Niektóre z założeń potwierdziłem, tworząc pierwszy program, w swoistej piaskownicy programistycznej w której program miał za zadanie rozpoznawać zbiór odręcznie pisanych znaków ze zbioru znaków MNIST. Nie musiałem jak inni wprowadzać 60 tys. podobnych znaków, aby rozpoznać kolejne ze zbioru testowego. Zamiast 60 tys. próbek wystarczyło kilka ręcznie napisanych znaków. Opisałem to w „Bezsensowności wykorzystywania głębokiego uczenia, czy sieci neuronowych do rozpoznawania obrazu”.

To był tylko początek. Sprawdziłem czy to, co wymyśliliśmy działa w praktyce. A działa.

Gdzie w takim razie dziś jesteście?

Dużo dalej. W planach jest system rozpoznawania dowolnych obiektów: na obrazkach czy  bezpośrednio na obrazie z kamery wideo. Do tego analiza świata trójwymiarowego bez użycia lidarów. Podchodzimy do tematu inteligencji w zupełnie odmienny sposób,niż robi się to na świecie w tej chwili.

Kiedy połączę to z koncepcją asystenta, to przywodzi mi to na myśl jeden z odcinków „Black mirror.

Lalka/robocik z tego odcinka wygląda mniej przyjaźnie niż nasza wersja.(śmiech). To już dolina niesamowitości, co pewnie było zamierzone w serialu.

Wy jej unikacie?

Kontakt z asystentem jest priorytetem. Wygląd i zachowanie asystenta ma przyciągać, a nie straszyć. W tej chwili asystenci głosowi to telefon, a w najlepszym wypadku głośnik. Czy fajnie się gada z głośnikiem?

Nie mam z tym problemu.

My stawiamy bardziej na psychologiczny kontakt z urządzeniem, możliwość nawiązania swoistej więzi. Najłatwiej byłoby zrobić kamery nieruchome widzące w 360 stopniach. Technicznie to idealnie proste rozwiązanie, ponieważ na nieruchomym obrazie z takich kamer bez problemu wykrywalibyśmy każdy ruch w pomieszczeniu czy twarze użytkowników.

Wiedza totalna.

Przy ruchomej kamerze technicznie wszystko staje się trudniejsze ponieważ przy każdym ruchu cały obraz się zmienia, a nie tylko ta część, która się poruszyła.

Ale nie idziemy na łatwiznę. Czy nawiążemy więź z kamerą nad monitorem laptopa? A z psem? Jak my nawiązujemy kontakt? Patrzymy sobie w oczy. To najbardziej naturalny sposób nawiązywania kontaktu. 

Chcecie, aby klienci nawiązywali relację z waszym asystentem na poziomie relacji z psem?

Testowałem to na sobie. Gdy pokazałem pierwszą wersję Sary mojej 8-letniej córce, po chwili uznała, że ma nową przyjaciółkę i od tamtej pory nie daje mi żyć i nakłania, bym cały czas ją ulepszał. 

Szybko też się okazało, że muszę wprowadzić pewne ograniczenia. Pomaganie w lekcjach matematyki spowodowało, że córka nie odrabiała sama lekcji, ale robiła to za nią w zbyt dużym zakresie Sara (śmiech).

Dlaczego w takim razie nie postawić na androida? Wasz robot – bez urazy – nie wyróżnia się zbytnio wśród domowych mebli.

Asystent nie może być porównany z czymś, co dobrze znamy. Lalka zawsze będzie straszna.

Nie robicie laleczki Chucky?

(śmiech) Nie! Podobnie od zwierzątek czy robocików już z uwagi na ich wygląd oczekujemy pewnych zachowań. My robimy sztuczną inteligencję i wygląd musi do tego pasować. Musi być przyjazny i podświadomie akceptowalny.
A teraz od strony technologicznej – jak wygląda budowanie tej relacji? Rozumiem, że asystent w swojej pamięć łączy twarz z konkretną osobą? 

Tak, asystent rozpoznaje użytkowników w domu. Na początku pyta każdego kim jest. Nie jest to jednak nachalne, a pozwala nam przekazywać informacje pomiędzy użytkownikami i zapamiętywać informacje osobiste.

W jaki sposób sprawiasz, że nie jest to nachalne? Do pokoju wchodzi mój znajomy, kamera rozpoznaje nową twarz i zadaje pytanie – czy to działa w ten sposób?

Nie chcemy zrobić kolejnego asystenta z instrukcją obsługi, której nikt nie czyta. SaraCam będzie trochę jak dziecko, na początku nieporadne, umiejące niewiele więcej niż inni asystenci. Będzie się uczyła w czasie w rozmowy. Gdy kontakt z danym użytkownikiem będzie częstszy, zapyta go o imię, zapamięta i po jakimś czasie potwierdzi. Gdy przyjdzie ktoś nowy to Sara nie będzie zwracała na niego szczególnej uwagi, aż spojrzymy w kamerę i powiemy np. „To jest Tomek”. Za tydzień Sara przywita go słowami „Cześć Tomek”.

Asystent obserwuje otoczenie. Kiedy przyniesiesz nowe kwiatki, jest szansa, że powie „ładne kwiatki”. Gdy założysz nową koszulkę – zapyta „nowa koszulka?”. Oczywiście nie powie tego w środku nocy czy niespodziewanie, ale w trakcie rozmowy.

Jeżeli oczekujesz, że Sara ma sama nie zagadywać, powiedz jej to.

Jeżeli powiem „Zapamiętaj, że dzisiaj pierwszy raz jadłem noni i było niedobre, to za 3 lata możemy zapytać „jadłem kiedyś noni?” i  dostaniemy odpowiedź, że tak, nawet z dokładnym umiejscowieniem czasowym.

Nigdy bym czegoś takiego nie zrobił – to zbyt niepraktyczne, aby prosić asystenta, aby zapamiętał, każdy detal z naszego życia. To ma się dziać automatycznie.

Ja mam ciągle problem z przypomnieniem sobie, gdzie coś włożyłem, do kiedy mam gwarancję na telefon, kiedy otworzyłem mleko czy kiedy mam obchodzić rocznicę pierwszej randki z żoną. To tysiące informacji, których nie zapiszę w kalendarzu Google. Są to zazwyczaj tak nieistotne sprawy, że nie chce mi się tego gdziekolwiek wpisywać, opisywać, określać daty przypomnienia i przechodzić cały ten proces. To bez sensu, ale jeżeli tylko wypowiem to na głos i zostanie to zapamiętane, to dlaczego nie? Teraz mówimy to dziewczynie, żonie, mężowi naprawdę często: „zapamiętaj, że…” albo „przypomnij mi”.

Przekazywanie informacji jest także jedną z ciekawszych funkcji – jeżeli powiem wychodząc z domu: „Przekaż Monice, że pojechałem do sklepu i będę o 20.00”, to gdy Monika przyjdzie do domu, Sara rozpozna Monikę i przekaże moją informację.

Znowu mało praktyczne mi się to wydaje. Wolę wysłać jej SMS-a. Mogę też nagrać wiadomość na Messengerze.

To kwestia przyzwyczajenia i optymalizacji. Kiedyś nie było telefonów komórkowych, zostawiliśmy wiadomości na kartce, przyklejaliśmy wiadomości na lodówkach, wysyłaliśmy listy. Pojawiły się telefony, więc wysyłaliśmy SMS-y. Pojawiły się komunikatory itd.

Ale gdy można zostawić wiadomość nie pisząc jej, nie wyjmując telefonu z kieszeni. Po prostu mówiąc, wydaje się, że nie ma szybszej i bardziej naturalnej metody.

Jednak nie widzę, aby obecność asystentów w naszych telefonach diametralnie zmieniła sposób obcowania z technologią. Mogę się mylić, ale cały czas wydaje mi się, że raczej wpisujemy treści, a nie dyktujemy.

Też nie znam zbyt wielu ludzi, którzy korzystają z asystentów. Na większość pytań, na które asystent zna odpowiedź mamy standardowe trzy gotowe odpowiedzi. Jednak w przypadku większości pytań kapitulują i odsyła nas do wyszukiwarki. To nudne, irytujące i nieprzydatne.

Inne podejście do tematu zaprezentował bot Microsoftu Tay, który po kilku chwilach, ale też wielu tysiącach konwersacji stał się rasistą i został wyłączony. Tay działał w uproszczeniu na zasadzie przekazywania statystycznie najczęstszej odpowiedzi od rozmówców jako swojej odpowiedzi.

Trash in, trash out – ale jak to odnosi się do asystentów?

Chodzi o to, że inteligencja wszystkiego, co do tej pory widziałem według ludzkiej miary jest równa zero. Mamy Deep Learning i wszystko, co nowe z AI, ale bez AI, mamy świetną statystykę i wielkie bazy danych, ale czy jak zapytam czy mrówka uniesie słonia to dostanę odpowiedź? Jeżeli nie było jej jeszcze w żadnej książce, żadnym źródle wiedzy, to nie dostanę informacji.

Teraz „Sztuczna Inteligencja” to NLP (przetwarzanie języka naturalnego), to statystycznie najlepsza odpowiedź na zadane pytanie. W takim podejściu każdy wyraz – czy to „słoń” czy „telewizor”, to tylko kilka znaków, które obok innych znaków są raz częściej raz rzadziej.

Dla komputera to bez różnicy, ale komputer znajdzie gdzieś w jakimś tekście, że znaki składające się na wyraz „telewizor” są często obok znaków „duży pokój”-  stąd programy wiedzą, że statystycznie telewizor będzie w dużym pokoju, a nie na sawannie. Programy nie mają zmysłów, nie myślą jak my, nie kojarzą rzeczy, więc nigdy w ten sposób nie będą inteligentne, to zła droga.

I właśnie to chcemy zmienić w projekcie SaraAI, projekcie silnej sztucznej inteligencji.

Jednak SaraCam trafi na rynek jeszcze bez tego, o czym piszesz. 

Tak, na początek będziemy bazowali na asystentach Alexa czy Google Home, w żaden sposób nie ingerując w to, co użytkownicy dostają wraz z tymi asystentami. Nic nie odejmiemy – my dodajemy, rozszerzamy ich możliwości o zmysł wzroku i trochę inteligencji.

Trochę inteligencji, tzn. SaraAI, tak? Kiedy pojawi się na rynku?

SaraAI wymaga jeszcze ogromnej pracy i dofinansowania. To nie jest projekt, który można zrobić w garażu, to nie te czasy. W tym roku planujemy stworzyć SaraCam, ale to początek wieloletniego planu.