Nie ma się z czego śmiać. Naukowcy nauczyli sztuczną inteligencję grać w Minecraft
Imponujące osiągnięcia sztucznej inteligencji to nie tylko pisanie prac naukowych o sobie czy wynalezienie leków na trapiące medycynę choroby. To także nauczenie jej, jak grać w Minecraft. Brzmi kuriozalnie, ale wyjaśniam, dlaczego nie ma się z czego śmiać.
GPT-4 jest z nami już od niemal trzech miesięcy, i choć na początku model zalała fala krytyki to nie da się ukryć - najnowszy duży model językowy OpenAI jest naprawdę dobry w tym co robi. Na tyle dobry, że całkiem dobrze poradził sobie w zeszłym miesiącu z zadaniami maturalnymi.
Teraz naukowcy postawili GPT-4 przed trudniejszym wyzwaniem: grą w popularnego Minecrafta. Nie, nie tworzeniu poradników czy testów wiedzy, a dosłownym graniu w grę.
Nietypowej pracy badawczej podjął się zespół badaczy sztucznej inteligencji reprezentujący Uniwersytet Stanforda, Uniwersytet Teksański w Austin, Uniwersytet Stanu Arizona, Kalifornijski Instytut Techniczny oraz firmę Nvidia. Problem badawczy był całkiem prosty: sprawienie by model językowy sztucznej inteligencji samodzielnie grał w Minecrafta. Jednak naukowcy postawili sobie za zadanie dokonanie tego poprzez stały trening na podstawie automatycznie generowanej bazy danych różnych umiejętności.
Dlaczego Minecraft jest ważniejszy dla SI, niż większość osób by się tego spodziewała?
By zrozumieć, dlaczego GPT-4 grający w Minecraft to nie kolejny viral, a całkiem ważne osiągnięcie, musimy spojrzeć na to jako obecnie sztuczna inteligencja gra w gry. Najczęściej stosowanym podejściem jest tu uczenie przez wzmacnianie (reinforcement learning), w którym agent sztucznej inteligencji - w specjalnie przygotowanym środowisku - powtarza daną czynność i obserwuje otrzymane w ten sposób kary i nagrody. Następnie model analizuje jakie zachowania dają mu nagrody, a które kary i w ten sposób sukcesywnie dąży do zminimalizowania ilości kar i zmaksymalizowania ilości nagród.
Uczenie przez wzmacnianie jest niezwykle efektywne w grach, które mają początek i koniec (choćby szachy czy go), ale kuleje przy grach z otwartym zakończeniem, gdzie nie ma jednej dobrej ścieżki czy nawet definitywnej "wygranej". Plus im więcej dostępnych danych treningowych, tym łatwiej nauczyć sztucznej inteligencji nowych sztuczek, a treści o samym Minecraftcie - filimiki, poradniki, artykuły - możemy liczyć w terabajtach. Dlatego Minecraft, jedna z najpopularniejszych produkcji ostatniej dekady, która przy okazji posiada ogromny, otwarty świat, to jedna z ulubionych gier świata uczenia maszynowego do testowania potencjału sztucznej inteligencji.
OpenAI też próbowało nauczyć SI gry w Minecrafta
W zeszłym roku samo OpenAI podjęło próbę nauki GPT-3 gry w Minecraft, karmiąc model dziesiątkami tysięcy godzin filmików z YouTube, które pokazywały sztucznej inteligencji, co ma zbudować, ale sama musiała dojść do tego, w jaki sposób ma do tego dojść.
Jednakże metoda OpenAI nie była idealna, bowiem GPT-3 "na ślepo" kopiował ludzkie zachowania, na przykład budując natychmiastowo dom, nie analizując czy został on zbudowany jako schronienie, czy ma w późniejszym etapie przysłużyć się do czegoś więcej.
Podobnie z narzędziami: ludzcy gracze sukcesywnie ulepszają swoje narzędzia i używają ich wybiórczo, z kolei GPT-3 od razu chciał stworzyć diamentowy kilof, gdyż dane treningowe nauczyły go, że "diamentowy jest najlepszy".
Minecraft ma własnego Voyagera
Tu zaczyna się istota eksperymentu amerykańskich naukowców. Stworzyli oni agenta sztucznej inteligencji o nazwie Voyager, za którego działaniem stoi API GPT-4 oraz Mineflyer - API pozwalające na budowanie botów do Minecrafta.
Na Voyagera składają się trzy elementy: mechanizm podpowiedzi (opierający się na informacjach zwrotnych z gry, błędach wykonania i autoweryfikacji), biblioteka umiejętności, w której Voyager przechowuje zdobyte już umiejętności (np. instrukcję jak walczyć lub stworzyć dany przedmiot) i zautomatyzowany program nauczania. Zautomatyzowany program nauczania jest generowaną przez GPT-4 w czasie rzeczywistym instrukcją co agent ma w danej chwili wykonać i jest oparta na "nadrzędnym celu" odkrycia jak największej ilości rzeczy w grze.
Każda akcja podejmowana przez sztuczną inteligencję w grze dzieli się na kilka etapów. Najpierw Voyager wydaje polecenie botowi Mineflayer (który odpowiada za ruch w postaci w grze) by ten wykonał akcję. Jeżeli akcja zostanie wykonana poprawnie (np. bez informacji zwrotnej o nieposiadaniu potrzebnego przedmiotu czy błędu, że dany przedmiot nie istnieje), dodaje on ją do swojej biblioteki umiejętności.
Następnie GPT-4 na podstawie zdobytych już umiejętności oraz aktualnego stanu świata (np. podejmie inną akcję w zależności od tego, czy Voyager znajduje się na pustyni, czy w lesie) proponuje kolejną akcję w grze. Cała rozgrywka Voyager to niekończący się cykl powtarzania owych czynności.
W myśl danych przedstawionych przez badaczy, w czasie jednej rozgrywki ich podejście pozwoliło im na odkrycie ponad trzy razy większej ilości przedmiotów w porównaniu do poprzedniego podejścia do nauki sztucznej inteligencji gry w Minecrafta. Podobnie z odkrytym obszarem - ten był dwa razy większy. Ponadto sama nauka różnych umiejętności idzie Voyagerowi znacznie szybciej, a samą bibliotekę umiejętności zgromadzonych przez badaczy udało im się wykorzystać do nauki AutoGPT.
Voyager nie jest wolny od błędów, bowiem cierpi przez tendencję GPT-4 do halucynowania i wymyślania czynności oraz przedmiotów. Jak piszą badacze w swojej pracy, GPT-4 kilkukrotnie polecało Voyagerowi wykonywanie czynności, których nie był w stanie zrobić, np. stworzenie miedzianego miecza, który w Minecraftcie nie istnieje.
Choć praca badawcza jest całkiem niepozorna i wielu osobom może wywołać uśmiech na twarzy, to według naukowców stanowi ona ważny krok w stworzeniu silnych agentów sztucznej inteligencji, którzy mogą działać i rozwijać się bez jakiejkolwiek interwencji człowieka.