Używają rezonansu i algorytmów do czytania w myślach. Efekty pracy neuronaukówców są niesamowite
Czytanie w myślach kojarzy się z filmami science fiction lub z nadprzyrodzonymi mocami. Mało kto powiąże je z funkcjonalnym rezonansem magnetycznym i sztuczną inteligencją, skrupulatnie trenowaną od lat przez środowiska akademickie.
Wyobraź sobie świat, w którym przeszukujesz internet za pomocą obrazu, który tworzysz w głowie. Świat, w którym stworzenie idealnej kuchni nie wymaga godzin spędzonych na przeglądaniu sieci, konsultacji z architektami wnętrz i wizytach w kolejnych sklepach, a jedynie przesłania obrazu z twojej głowy do komputera. Albo pomyśl o wakacjach, podczas których zamiast aparatu (a właściwie teraz już telefonu) używasz oczu do uchwycenia widoków z Tatr. Jak brzmi z kolei wizja, w której byłbyś w stanie zapisywać i odtwarzać swoje sny?
Choć takie scenariusze wydają się być niezwykle odległe technologicznie, to nie są całkowicie oderwane od rzeczywistości. Dzieje się tak za sprawą algorytmów, które potrafią odczytać i przetworzyć zapis funkcjonalnego obrazowania metodą rezonansu magnetycznego, próbując odwzorować obrazy aktualnie "znajdujące" się w naszych mózgach.
Funkcjonalny rezonans magnetyczny w służbie nauki.
Aby zrozumieć dotychczasowe osiągnięcia nauki, należy zapoznać się, czym jest i jak działa rezonans magnetyczny (MRI) oraz funkcjonalny rezonans magnetyczny (fMRI).
W uproszczeniu, urządzenie MRI generuje silne pole magnetyczne (około 25 tysięcy razy silniejsze od pola magnetycznego Ziemi), które powoduje pobudzenie protonów wodoru. Maszyna emituje krótki impuls elektromagnetyczny o częstotliwości radiowej, który prowadzi do krótkotrwałej zmiany położenia protonów. Po wyłączeniu impulsu następuje powrót do równowagi. Protony rezonują i oddają energię. I właśnie poprzez pomiar tej energii urządzenia MRI są w stanie stworzyć obraz mózgu.
Rezonans magnetyczny umożliwia zobaczenie struktury mózgu - w tym zmian, wad czy nieprawidłowości. Jednakże obraz uzyskany poprzez MRI jest statyczny i pozwala jedynie na zbadanie anatomii mózgu. W przypadku, w którym wymagane jest zbadanie aktywności mózgu, stosuje się wyspecjalizowaną odmianę rezonansu magnetycznego - funkcjonalne obrazowanie metodą rezonansu magnetycznego. Za pomocą fMRI mierzy się przepływ krwi i natlenienia poszczególnych obszarów mózgu. Korzysta się z faktu, że podczas aktywności komórek nerwowych wywołanych jakimś bodźcem, zwiększa się ich zapotrzebowanie na tlen. Właściwości hemoglobiny różnią się w zależności od tego czy przenosi ona tlen.
fMRI to relatywnie nowa metoda obrazowania, gdyż wynaleziono ją na początku lat dziewięćdziesiątych ubiegłego wieku, a do powszechnego użytku trafiła dopiero na przełomie wieków. Jednak od samego początku istnienia w fMRI widziano potencjał do wykorzystania nieklinicznego. Obecnie dwa najpopularniejsze zastosowania niekliniczne to badania neuromarketingowe i wykrywanie kłamstw. Tego typu zastosowania budzą kontrowersje w środowisku naukowym.
fMRI pozwala na czytanie w myślach?
Naukowcy zajmujący się neurobiologią nie cierpią stwierdzenia, że fMRI pozwala czytać w myślach. Dlaczego? Bo interpretacja wyników badań prowadzonych za pomocą funkcjonalnego rezonansu magnetycznego jest kłopotliwa.
Po pierwsze, dzieje się tak z powodu faktu, że fMRI dostarcza dowodów pośrednich, a nie bezpośrednich, pokazuje bowiem obszary, w których zwiększyła się ilość krwi natlenowanej, a to może mieć związek z różnymi czynnikami.
Po drugie, różne obszary mózgu mogą odpowiadać za wiele funkcji. Dlatego łączenie na przykład aktywności ciała migdałowatego podczas badania fMRI z niepokojem, może być mylące, bo obszar ten wiąże się ze znacznie szerszym spektrum przeżyć.
Po trzecie wreszcie, część obszarów mózgu uaktywnia się nawet w 30 proc. wszystkich badań prowadzonych tą metodą.
Kalifornijski przełom?
W 2011 roku naukowcy z Uniwersytetu Kalifornijskiego w Berkeley przetarli szlaki do kolejnego sposobu, który może być przełomowy nie tylko dla fMRI, ale dla także dla rozwoju interakcji na linii człowiek-komputer.
22 września 2011 roku na łamach magazynu Current Biology opublikowano wyniki badania, w którym za pomocą metody fMRI oraz modeli komputerowych, uczonym udało się rozszyfrować oraz zrekonstruować ludzkie doświadczenia wizualne.
W badaniu wziął udział Shinji Nishimoto, główny jego autor oraz dwóch innych członków zespołu badawczego. Miało to wynikać z konieczności wielogodzinnego przebywania w skanerze fMRI i wiązało się leżeniem w bezruchu.
Wszystkim trzem osobom wyświetlono dwa różne zestawy zwiastunów hollywoodzkich filmów, jednocześnie za pomocą fMRI monitorując aktywność ich kory wzrokowej. To obszar mózgu odpowiadający za przetwarzanie informacji wizualnych. Uzyskany w ten sposób obraz aktywności mózgu podzielone na małe, trójwymiarowe kostki, znane w grafice trójwymiarowej jako woksele.
Aktywność mózgu zarejestrowana podczas oglądania pierwszego zestawu klipów, została wprowadzona do programu komputerowego, który uczył się sekunda po sekundzie kojarzyć wzorce wizualne w filmikach z poszczególnymi aktywnościami mózgu.
Następnie uczeni wykorzystali nagrania aktywności mózgu z drugiego "seansu", by przetestować możliwości nowo wytrenowanego algorytmu. Dokonano tego poprzez wprowadzenie do programu komputerowego 18 milionów sekund (lub jak kto woli - około 208 dni) losowych filmów z YouTube'a, żeby sprawdzić algorytm i przetestować jego możliwości przewidywania aktywności mózgu, którą najprawdopodobniej wywoła każdy filmik u każdego badanego.
W dalszej części eksperymentu, spośród wszystkich wyświetlonych filmów, program wybrał 100 najbardziej podobnych do tego, który został wyświetlony zespołowi Nishimoto. Setka wyselekcjonowanych filmów została połączona w jeden, który odzwierciedlał to, co według algorytmu obejrzeli badani ludzie. Uzyskany w ten sposób filmik był wyraźnie rozmazany, lecz możliwym było zauważenie podobieństw między oryginalnym filmikiem a jego "rekonstrukcją" stworzoną przez komputer
Największą przeszkodą na drodze naukowców była technologia, która ogranicza możliwości analizy w czasie rzeczywistym. Pomiar przepływu krwi dokonywany przez funkcjonalny rezonans magnetyczny jest znacznie powolniejszy niż prędkośc z jaką nasze mózgi przetwarzają bodźce wizualne. Z tego powodu większość naukowców podejmujących się podobnych przedsięwzięć, ogranicza się jedynie do analizy reakcji na statyczne obrazy.
Kolejny krok do przodu
Kolejnym kamieniem milowym są wyniki eksperymentu przeprowadzonego przez naukowców z Uniwersytetu Purdue w West Lafayette opublikowane 20 października 2017 roku. W owym eksperymencie wzięły udział trzy kobiety, które obejrzały łącznie 972 krótkie filmiki. Nagrania wideo zostały dobrane tak, aby w prosty do zidentyfikowania sposób pokazywały różne przedmioty, zwierzęta i sceny. Kobiety oglądały filmiki przebywając w maszynie fMRI, dzięki czemu naukowcy zgromadzili w sumie 11 i pół godziny nagrań aktywności ich mózgów.
Następnie naukowcy wykorzystali zgromadzone dane do trening modelu splotowej sieci neuronowej tak, by sztuczna inteligencja była w stanie połączyć odpowiednie filmiki z aktywnością w korze wzrokowej mózgu. Tym samym być w stanie przewidzieć i sklasyfikować to, co widzi człowiek na podstawie aktywności mózgu, w tym filmiki z którymi "nie zapoznano" sztucznej inteligencji.
Wytrenowany w ten sposób model był w stanie dokładnie określić kategorię obrazu, jaki aktualnie ogląda człowiek. Naukowcy z Uniwersytetu Purude porównali oryginalne nagrania z tym, które - na podstawie dostępnych danych - zostało odtworzone przez sztuczną inteligencję. Choć zrekonstruowane nagrania są bardzo rozmazane, można dostrzec podobieństwa pomiędzy obydwoma filmikami.
[...] Scena z samochodem poruszającym się przed budynkiem jest rozdzielana przez mózg na fragmenty zawierające poszczególne informacje: jeden obszar mózgu przetwarza samochód; inny obszar może przetwarzać budynek. Korzystając z naszej techniki, możliwa jest wizualizacja określonych informacji przetwarzanych przez dowolną część mózgu i jednoczesne przeglądanie wszystkich obszarów w korze wzrokowej mózgu. Dzięki temu możesz zobaczyć, jak mózg dzieli scenę wizualną na kawałki i ponownie je składa w całość, aby w pełni zrozumieć, co tak właściwie widzi.
Haiguang Wen, główny autor badania
Co ważne, dzięki osiągnięciom tego eksperymentu naukowcy byli również w stanie wykorzystać modele wytrenowane na danych od jednego człowieka do przewidywania i dekodowania aktywności mózgu innego człowieka, w procesie zwanym kodowaniem i dekodowaniem międzyobiektowym. Jest to niezmiernie ważne odkrycie, ponieważ pokazuje potencjał szerokiego zastosowania sztucznej inteligencji do badania funkcji mózgu, np. u osób z poważnymi wadami wzroku.
Japońskie 5 groszy
Badania nad rozwojem sztucznej inteligencji w kierunku analizy i przewidywania aktywności ludzkiego mózgu są aktywnie prowadzone przez środowiska akademickie z całego świata. Pod koniec 2017 roku swoje pięć groszy dołożył zespół z Uniwersytetu w Kioto pod przewodnictwem profesora Guohua Chen.
Neuronaukowcy z Kioto opracowali nową metodę odczytywania informacji wizualnych, również z wykorzystaniem fMRI, lecz tym razem przy użyciu głębokich sieci neuronowych (DNN). Dzięki zastosowaniu ich do treningu sztucznej inteligencji, uzyskano bardziej różnorodną i szczegółową rekonstrukcji widzianych obrazów.
Na potrzeby projektu, naukowcy przez 10 miesięcy pokazywali trzem osobom różne obrazy - w tym zwykłe zdjęcia (np. ptaka czy mężczyzny w kowbojskim kapeluszu), sztucznie stworzonych geometrycznych kształtów (np. trójkąty czy kwadraty) oraz pojedyncze litery. Obrazy były wyświetlane przez różny okres czasu, a ponadto aktywność mózgu sprawdzano nie tylko podczas wyświetlania obrazu, ale także po pokazie, gdy pytano badaną osobę, by opisała, co właśnie zobaczyła.
Japońska metoda okazała się przełomem dla całej neuronauki, gdyż był to pierwszy raz, kiedy sztuczna inteligencja była w stanie zrekonstruować obraz jedynie na podstawie ludzkich myśli - gdy osoba jest pytana, co właśnie widziała, a nie, jak dotychczas, jedynie w momencie gdy aktywnie obserwuje dany obraz lub film.
GAN, czyli Jan Matejko sztucznej inteligencji
Pośród wielu technologii wykorzystywanych przy próbach stworzenia sztucznej inteligencji, która "czyta" w myślach, na specjalne wyróżnienie zasługuje GAN, a właściwie generatywne sieci współzawodniczące. GAN jest jednym z istotnych wynalazków ostatnich 20 lat w dziedzinie sztucznej inteligencji i deep learningu. Jego metoda działania oparta na współzawodnictwie, pozwala na nie tylko tworzenie lepszych i bliższych rzeczywistości treści (nie tylko pod postacią obrazów, ale i muzyki czy tekstu), ale przede wszystkim umożliwia komputerowi (a właściwie: głębokim sieciom neuronowym [DNN]) "myślenie" kreatywne.
By poprawnie wykonywać swoje zadania, DNN-y potrzebują dużych zestawów oznaczonych danych. Innymi słowy, by DNN był w stanie wykorzystać dane, człowiek musi jednoznacznie zdefiniować, co dany zestaw informacji reprezentuje.
Dla przykładu, jeżeli damy głębokiej sieci neuronowej wystarczającą liczbę zdjęć psów, nauczy się ona jakie cechy posiada pies, w wyniku czego będzie w stanie rozpoznawać psy na fotografiach, których nigdy wcześniej nie widziała. Jeżeli damy wystarczająco zdjęć psów konkretnej rasy, DNN będzie w stanie nie tylko wyróżnić na fotografiach psy, ale także wyselekcjonować czworonogi tej konkretnej rasy.
Na tej samej zasadzie działa m.in. technologia rozpoznawania twarzy czy autonomiczne samochody, które za pomocą DNN-ów są w stanie określić czy jadą po prostej drodze lub czy stoi na niej przeszkoda i - jeżeli tak - jakiego typu jest to przeszkoda (np. inny samochód, rower, drzewo, dorosły człowiek lub dziecko).
Generatywne sieci współzawodniczące opierają się na idei dwóch sieci neuronowych, które współzawodniczą ze sobą. GAN może, na przykład, zacząć od chaotycznego zbitku pikseli i zmodyfikować go w taki sposób, aby finalnie klasyfikator zatwierdził uzyskany obraz jako zdjęcie psa.
Dotychczas GAN szerszemu gronu publiczności kojarzony był przede wszystkim z inteligentnym retuszem Facebooka, cyfrowym malarzem Microsoftu czy aplikacji Face Depixalizer wykorzystywanej do odtworzenia twarzy B.J. Blazkowicza. StyleGAN opracowany przez Nvidię jest używany w projekcie this-person-does-not-exist.com, który tworzy portrety łudząco podobne do żywych ludzi.
95,5 proc. skuteczności w odczytywaniu obrazu ludzkiej twarzy
W 2019 roku duet francuskich naukowców - Rufin VanRullen oraz Leila Reddy postanowili wykorzystać GAN, a także dotychczasowe osiągnięcia w dziedzinie odczytu i interpretacji fMRI przez sztuczną inteligencję do odtworzenia twarzy "z ludzkich myśli".
By to zrobić, naukowcy zaczęli od nienadzorowanego treningu wariacyjnego autoenkodera przez 15 godzin za pomocą 202 599 zdjęć gwiazd i celebrytów. Tak wytrenowana sztuczna inteligencja została poddana kolejnemu treningowi, podczas którego uczyła się łączyć poszczególne twarze z odczytami fMRI. W eksperymencie wzięło udział czterech mężczyzn w wieku od 24 do 44 lat.
Podobnie jak w przypadku poprzednich tego typu eksperymentów, podczas badania fRMI wyświetlano im obrazy - w tym przypadku statyczne zdjęcia celebrytów. Każde zdjęcie wyświetlane było przez sekundę, a przerwa pomiędzy trwała sześć sekund. W sumie każdy z uczestników badania zobaczył przynajmniej osiem tysięcy różnych zdjęć. Oprócz tego francuscy uczeni posłużyli się algorytmem analizy głównych składowych (PCA). PCA służy przede wszystkim do redukcji zmiennych opisujących dane zjawisko oraz odkrycia ewentualnych prawidłowości między cechami. W przypadku eksperymentu Rufina VanRullen i Leili Reddy, PCA posłużyła do stworzenia uproszczonych modeli zawierających jedynie 1024 główne składowe.
Finalnie, każdemu z czterech uczestników pokazano cztery różne zdjęcia - dwa przedstawiające mężczyznę i dwa przedstawiające kobietę. Następnie wytrenowana sztuczna inteligencja miała za zadanie odtworzyć to co widzi dana osoba jedynie w oparciu o odczyt aktywności mózgu fMRI - innymi słowy, w oparciu o myśli danej osoby
Wariacyjny autoenkoder trenowany za pomocą GAN (VAE-GAN) był w stanie zrekonstruować twarze ze średnią dokładnością 95,5 proc. (skala podobieństwa od 91,3 do 98,7 proc.), natomiast algorytm PCA ze średnią dokładnością 87,5 proc. (skala podobieństwa od 76,6 do 92,4 proc.).
Czy naukowcy będą czytać w myślach pacjentów?
Czytanie w myślach to iście surrealistyczna perspektywa. Z jednej strony mogłoby dać niezwykłe możliwości twórcom, artystom, projektantom, pisarzom, muzykom. Otwiera też teoretycznie drogę do rewolucji w sądownictwie, gdy rolę kluczową grają zeznania świadków. Jest też szansą dla osób, które z powodu choroby lub urazów, nie są w stanie porozumiewać się ze światem.
Każdy medal ma jednak dwie strony i nie inaczej jest w tym przypadku. "Czytanie" w myślach to także ogromne zagrożenie - przede wszystkim utraty intymności i prywatności - w najgłębszym tego słowa znaczeniu.
Zanim teoria i pojedyncze eksperymenty zamienią się w używalną technologię, minie wiele lat. Należy również pamiętać, że naukowcy nie bez powodu unikają mówienia o "czytaniu w myślach". Starają się bowiem nie ulegać medialnej presji do zbytnich uproszczeń i pamiętają, że metody badania mózgu, którymi dysponują nadal są niedoskonałe i wymagają kolejnych kamieni milowych. Tak naprawdę bowiem o ludzkich umysłach wiemy dziś znacznie mniej niż o wszechświecie, w którym mieszkamy i Ziemi, po której chodzimy.