Humane AI Pin to rewolucja? Będzie efekt wow i nieuchronna śmierć w szufladzie
AI Pin, czyli malutka przypinka do marynarki mieszcząca w sobie całą mądrość cyberprzestrzeni, w teorii ma potencjał na wywołanie dużego zamieszania na rynku. Urządzenie będzie miało jednak bardzo istotną wadę. Na tyle poważną, że dla wielu użytkowników w praktyce dyskwalifikującą.
Atmosfera wokół zbliżającej się premiery przypinki AI Pin nieco zaczyna przypominać nastrój przed premierą jakiegoś nowego produktu Apple’a. Dziwaczne urządzenie nie ma żadnego wyświetlacza, ma nieoczywisty interfejs i jest stale podłączonym do Internetu cyfrowym szpiegiem. A mino tego zdaniem twórców jest skazane na sukces.
W teorii owi twórcy mogą mieć rację. AI Pin będzie bowiem korzystać z mądrości, jaką zapewnią hostowane w chmurze usługi bazujące na Dużych Modelach Językowych. Innymi słowy - przypinka będzie używać podobnej technologii do tej, jakiej używają ChatGPT czy Microsoft Copilot.
Czytaj też:
Podstawowym interfejsem do przypinki są polecenia głosowe, które można uzupełnić gestami (AI Pin jest wyposażona w kamerę). Odpowiedzi są również głosowe, choć jest też pewna forma interfejsu graficznego - by zachować malutki rozmiar przypinka nie ma wyświetlacza, ale za to jest wyposażona w monochromatyczny projektor.
Taki pomysł w teorii brzmi naprawdę dobrze. Usługi pokroju Copilota czy ChatGPT są bardzo użyteczne i już dziś pomagają w pracy i codzienności licznej grupie użytkowników, która raczej będzie się tylko powiększać. Co więcej tego rodzaju usługi można rozszerzać przez zapewnianie im dostępu do danych z innych usług użytkownika. AI Pin za sprawą stosownych API będzie mógł podczepić się do Gmaila, Outlooka, Tidala i innych przydatnych osobistych produktów użytkownika. AI Pin mógłby być prawdziwie inteligentnym cyfrowym asystentem - nie to co głąby pokroju Asystenta Google czy Alexy. Są jednak dwa problemy. Oba tak oczywiste, że aż dziwię się, że firmie Humane nie zabrakło odwagi, by wprowadzić ten produkt na rynek.
Humane AI Pin. Problem numer jeden: interfejs. Czemu nie ucinasz pogaduszek z Siri?
Nazwaliśmy w poprzednim akapicie obecnych asystentów głosowych głąbami, ale to może zbyt surowa ocena. Technologia stojąca za takimi usługami, jak Asystent Google, jest w istocie fascynująca. Poranne, bełkotliwe Alexa, turn on air purifier. Alexa, lights on in the bathroom. Alexa, play new podcasts wymawiane z polskim akcentem stało się moją codzienną rutyną. A przecież za nią stoi niezwykły mechanizm do interpretacji głosu, rozbijania go na poszczególne frazy, analiza ich znaczenia i wreszcie odpowiednie sygnały do połączonych usług - jak odświeżacz SmartThings, lampki Hue czy Spotify.
Niestety sama funkcjonalność aktualnie funkcjonujących asystentów głosowych jest wysoce ograniczona. W niczym nie przypominają HAL-a 9000, Jarvisa czy inne SI znane z filmów science-fiction. Potrafią opowiedzieć dowcip, zrobić zakupy, ustawić przypomnienie w kalendarzu, puścić piosenkę czy inne proste czynności. Jakiekolwiek inne, bardziej złożone zadania - i owi asystenci rozkładają bezradnie swoje wirtualne ręce. Proste czynności powinny jednak wystarczyć. Tym niemniej, jak wykazują rozmaite badania, z asystentów głosowych korzystamy coraz... rzadziej, mimo iż ich możliwości wyłącznie rosną.
Dlaczego? Większość badań wskazuje na trzy kluczowe czynniki:
- Przyzwyczajenie - wiele osób jest przyzwyczajonych do obsługi telefonu za pomocą ekranu dotykowego, ponieważ to jest najczęstszy sposób interakcji z urządzeniem. Polecenia głosowe mogą być dla nich mniej intuicyjne lub naturalne.
- Prywatność - niektórzy ludzie mogą nie chcieć, aby inni słyszeli, co mówią do swojego telefonu lub innego urządzenia, zwłaszcza jeśli chodzi o poufne lub osobiste informacje. Używanie ekranu dotykowego zapewnia większą dyskrecję i kontrolę nad tym, co jest widoczne lub słyszalne przez otoczenie.
- Skuteczność - polecenia głosowe mogą być niedokładne lub niezrozumiałe dla telefonu, zwłaszcza w hałaśliwym otoczeniu lub przy silnym akcencie. Używanie ekranu dotykowego eliminuje ryzyko błędów lub nieporozumień wynikających z rozpoznawania mowy.
Humane AI Pin być może zniweluje pierwszy i trzeci problem. Może być tak dobry i tak użyteczny, że ludzie zechcą dla niego zmienić swoje przyzwyczajenia. Duże Modele Językowe są też niesamowicie dobre w wyczuwaniu intencji polecenia, radzą sobie świetnie nawet z niepoprawnymi językowo frazami - więc i trzeci problem zapewne mógłby być przez AI Pin zniwelowany. Z drugim nie zrobi się nic - a alternatywnego interfejsu przypinka nie oferuje. Mnie jednak zniechęciłoby coś zupełnie innego.
Masz rację, że nie używasz Microsoft Copilot jako swojego domyślnego asystenta głosowego - to frustrujące doświadczenie. Z Humane AI Pin nie może być inaczej.
Wyszukiwarka Google przyzwyczaiła użytkowników do usług błyskawicznie reagujących na zadane im polecenia. Gdyby wyniki wyszukiwania nie wyświetlały się szybciej niż po dwóch, trzech sekundach, zapewne użytkownik zacząłby się zastanawiać czy z jego połączeniem internetowym jest wszystko w porządku. Komputer ma reagować błyskawicznie, w tym przenośny pokroju telefonu komórkowego.
Jedną z bardziej imponujących cech asystentów głosowych jest wspomniana natychmiastowa reakcja. OK Google, czy dziś jest niedziela handlowa?, a asystent w mig nie tylko przetwarza głos i interpretuje zawarte w nim polecenia, ale natychmiast syntezuje odpowiedź. Niestety w przypadku Dużych Modeli Językowych nie jest to takie proste. Znaczy się, możliwe jest okrojenie takich modeli i ich wyszkolenie wyłącznie w ramach danej specjalizacji. AI Pin ma jednak być asystentem ogólnego pożytku. Będzie zapewne korzystał co najmniej z GPT-3.5, jeśli nie z GPT-4 (lub, być może, innego podobnie rozwiniętego modelu, Humane na razie nie zdradza planów).
Tak duży model językowy wymaga dużej mocy obliczeniowej. To oznacza, że generowanie przez niego odpowiedzi swoje trwa. Na tyle długo, że przyzwyczajeni do natychmiastowych reakcji użytkownicy mogą poczuć się zbyt frustrowani. Czym innym jest otworzyć w nowej karcie przeglądarki ChatGPT i zadać mu pytanie związane z wykonywaną pracą - gdy bot będzie generował odpowiedź, użytkownik zajmie się czymś innym - a zupełnie czym innym interakcja z mobilnym urządzeniem, kiedy odpowiedź potrzebna jest natychmiast.
Microsoft Copilot korzysta z GPT-4. W przeciwieństwie do AI Pin, jest darmowy. Można więc mieć nadzieję, że przypinka będzie reagować nieco szybciej. Niezmiennie jednak Copilot, będąc hostowanym na potężnej chmurze Azure, przez minutę udzielał odpowiedzi na bardzo proste pytanie o dobór wina do posiłku. Wyobrażasz sobie korzystać w ten sposób z AI Pin, kiedy możesz wyjąć z kieszeni telefon i odpowiedź na takie samo pytanie uzyskać znacznie szybciej, a przede wszystkim dyskretnie?
Humane AI Pin to przyszłość. Obawiam się jednak, że nie teraźniejszość.
Powyższe problemy nie są jedynymi, jakie mogą trapić ten produkt. AI Pin, wyposażony w kamerę i mikrofon, pewnie będzie na wiele osób działać odpychająco, obawiających się o swoją prywatność. Nie jest jasne jak długo AI Pin działa bez podłączania przypinki do ładowarki. Nie poruszyliśmy też problemu, jakim jest skłonność Dużych Modeli Językowych do halucynacji, a więc podawania nieprawdziwych informacji - co oznacza, że urządzeniu nigdy w pełni nie będzie można ufać.
Wizja AI Pin wydaje się trafna. Telefon użytkownika znajduje się w torbie bądź w kieszeni. AI Pin, gdyby działał jak w jego reklamach, oszczędzałby fatygi sięgania po takie urządzenie, cały czas rejestrując otoczenie i nasłuchując poleceń od swojego użytkownika. Urządzenie będzie jednak ograniczone cechami, na które Humane ma niewielki wpływ. Tymi ograniczeniami są sprawność energetyczna chipsetów (czyli zużycie energii), przyzwyczajenia użytkowników i ich ograniczona tolerancja na podsłuchiwanie poleceń głosowych i udzielanych na nie odpowiedzi i wreszcie niedoskonałość samych Dużych Modeli Językowych - imponująco skutecznych, ale powolnych i nadal potrafiących zmyślać bzdury.
A to wszystko za 700 dol. za urządzenie i 25 dol. miesięcznego abonamentu. Klapa od marynarki nigdy już nie będzie taka sama? Na moje klapa to będzie, ale innego rodzaju.
Choć jest czego żałować.