Koniec z nerwowym szukaniem kluczy i portfela. Pomoże domowy robot
Według MIT robot ma nie tylko widzieć pokój, ale też pamiętać, gdzie i kiedy widział konkretne przedmioty. To krok do domowych asystentów AI.

Chyba każdy z nas zna ten moment: klucze miały być na szafce, portfel w kieszeni, a ładowarka obok kanapy. Tyle że rzeczy zniknęły, jakby mieszkanie na chwilę stało się czarną dziurą. Człowiek zwykle odtwarza wtedy trasę w głowie: gdzie byłem, co trzymałem w ręku, gdzie coś odłożyłem. Roboty mają z tym znacznie większy problem.
Naukowcy z MIT pokazali system, który może być krokiem do rozwiązania tej codziennej irytacji. DAAAM, czyli Describe Anything, Anywhere, at Any Moment, pozwala robotowi budować pamięć przestrzenno-czasową: co widział, gdzie to było i kiedy pojawiło się w jego otoczeniu. Jest to fundament pod robota, któremu w przyszłości można będzie powiedzieć: przypomnij mi, gdzie ostatnio widziałeś mój portfel.
Robot musi pamiętać świat tak jak człowiek
Ludzie nie zapamiętują pomieszczenia wyłącznie jako zbioru pikseli. Pamiętamy miejsca, przedmioty i kontekst. Wiemy, że czerwony kubek stał rano na biurku, rower z przebitą oponą był przy stojaku, a torba leżała w przedpokoju, kiedy wróciliśmy z pracy. To pamięć mocno związana z przestrzenią i czasem.
Roboty radzą sobie z tym znacznie gorzej. Mogą budować mapy 3D pomieszczeń i korytarzy, ale takie mapy często nie zawierają bogatego opisu obiektów. Mogą też korzystać z modeli wizyjno-językowych, które świetnie opisują pojedyncze zdjęcie, ale nie zawsze wiedzą, gdzie dokładnie dany przedmiot znajduje się w realnej przestrzeni i jak jego położenie zmieniało się w czasie.
DAAAM próbuje połączyć klasyczne mapowanie 3D z możliwościami nowoczesnych modeli wizyjno-językowych. Robot nadal tworzy mapę 3D otoczenia, ale dodaje do niej opisy w języku naturalnym. Dzięki temu przestrzeń przestaje być dla niego wyłącznie geometrią. Zaczyna być zbiorem znaczących rzeczy, miejsc i relacji.
Mapa staje się po prostu pamięcią
Wyobraźmy sobie robota jadącego przez fabrykę albo mieszkanie. Po drodze widzi rowery, drzwi, ławki, rzeźby, narzędzia, pojemniki, półki i ludzi. Klasyczny system mógłby zaznaczyć część obiektów na mapie. DAAAM robi coś więcej: przypisuje im szczegółowe opisy.
Robot może zapamiętać, że przy stojaku obok konkretnego budynku znajdował się czerwony rower z przebitą oponą. Może później odpowiedzieć na pytanie o rzeźbę, którą widział w pobliżu danego miejsca. Może połączyć opis obiektu z jego pozycją i czasem obserwacji. Właśnie dlatego badacze mówią o pamięci przestrzenno-czasowej.

Dla robotów to naprawdę duży krok. Maszyna, która tylko widzi to, co jest przed nią w danej chwili, działa wyłącznie w oparciu o bieżące obserwacje. Jeśli potrafi też pamiętać, zaczyna funkcjonować znacznie bardziej jak człowiek. Może wrócić do miejsca, w którym wcześniej zauważyła jakiś przedmiot, odpowiedzieć na pytanie o to, co widziała wcześniej, albo wykonać polecenie odnoszące się do wydarzeń z przeszłości.
Największy problem to tempo
Opisanie całego świata przez AI jest kosztowne obliczeniowo. Jeśli robot miałby pytać duży model o każdy przedmiot widziany w każdej klatce obrazu, szybko utknąłby w obliczeniach. To nie działa w czasie rzeczywistym, a robot poruszający się po dużym środowisku może zobaczyć setki obiektów w kilka minut.
Właśnie dlatego DAAAM nie opisuje wszystkiego po kolei w najprostszy możliwy sposób. System grupuje pobliskie obiekty, wybiera najlepsze klatki, w których widać je najwyraźniej, i opisuje wiele elementów naraz. Innymi słowy: nie marnuje obliczeń na kolejne słabe ujęcia tego samego przedmiotu, tylko wybiera moment, w którym AI ma największą szansę dobrze go rozpoznać.
To przyspiesza działanie nawet 10-krotnie. Dzięki temu system może działać w dużych środowiskach w czasie rzeczywistym, a nie tylko jako powolny eksperyment analizujący nagrania po fakcie.
Po co to komu?
Domowy przykład z kluczami najłatwiej sobie wyobrazić, ale takie rozwiązanie może szybciej trafić do firm niż do mieszkań. Tego typu pamięć przydałaby się w fabrykach, magazynach, szpitalach, biurach czy systemach rozszerzonej rzeczywistości.
Dajmy na to w takiej fabryce pracownik mógłby poprosić robota o przyniesienie części, którą zespół zaczął składać poprzedniego wieczoru. W magazynie robot mógłby wrócić do miejsca, gdzie ostatnio widział określony pojemnik. W systemie AR pracownik techniczny mógłby dostać podpowiedź, gdzie wcześniej zauważono nietypowy element instalacji albo usterkę.
Przeczytaj także:
Rzeczywiste środowiska są dynamiczne i stale się zmieniają. Przedmioty znikają, przesuwają się, wracają w inne miejsca, są zasłaniane i pojawiają się w nowych kontekstach. Robot bez pamięci jest w takim świecie jak turysta z bardzo dobrą kamerą, ale bez wspomnień. Robot z DAAAM zaczyna mieć coś bliższego notatnikowi.
MIT zwraca uwagę, że obecny system ma swoje pewne ograniczenia. Gorzej radzi sobie m.in. z bardzo małymi obiektami albo pytaniami wymagającymi informacji, których nie da się łatwo wyciągnąć z dostępnych narzędzi pamięci. Badacze chcą rozwijać DAAAM tak, aby lepiej zapamiętywał istotne wydarzenia w środowisku i umiał podawać poziom pewności własnych odpowiedzi. Dopiero wtedy będziemy mogli mówić o innowacji.
*Grafika wprowadzająca wygenerowana przez AI
O nowych technologiach zaczął pisać jeszcze w 2012 r. na łamach portalu Telix. Później przez pewien czas pisał dla Komputer Świata i PCLabu. Epizod dziennikarski zaliczył także w lokalnej gazecie i w dziale blogowym SpeedTest. Współzałożyciel agencji BlueCopy, zajmującej się copywritingiem i poligrafią. Przez pewien czas właściciel firmy transportowej. Prywatnie fan starych polskich oper mydlanych (oglądanych obowiązkowo z konkubiną), dumny opiekun kotki brytyjskiej i pasjonat-amator druku 3D.