O tym jak chłopak z Gdańska tak wytrenował AI, że powaliła zawodowych e-graczy

Pod koniec 2018 roku bot opanował zespołowe strategie ludzi, nauczył się wykorzystywać podstęp, oszukiwać, wciągać w pułapkę i tworzyć własne strategie” - Karol Kopańko opisuje ścieżkę Filipa Wolskiego od licealnej olimpiady informatycznej do trenera sztucznej inteligencji. Opowieść ta to fragment zbioru reportaży Kopańki „Polski e-sport”, która właśnie ukazała się nakładem wydawnictwa Znak. 

O tym jak chłopak z Gdańska tak wytrenował AI, że powaliła zawodowych e-graczy

W lutym obchodziliśmy rocznicę pierwszej szachowej wiktorii sztucznej inteligencji nad człowiekiem. Przed ćwierćwieczem Garri Kasparow zmierzył się z Deep Blue od IBM-a. 

Po 37 posunięciach rosyjski mistrz został zmuszony do poddania partii. Superkomputer zapisał po swojej stronie potyczkę, ale wojnę wygrał człowiek (Kasparow wygrał trzy partie i dwie zremisował). Kasparow mówił wówczas, że komputer był zbyt przewidywalny i niczym go nie zaskoczył. Inżynierowie IBM-a wzięli sobie te uwagi do serca. Rok później przygotowali ulepszoną wersję komputera – Deeper Blue, który w decydującej partii w końcu rozprawił się z człowiekiem.

„Krzemowe mózgi” po kolei odbierały nam tytuły w coraz to bardziej skomplikowanych grach. Po szachach przyszedł czas na Go, a przecież - jak mówił amerykański szachista Edward Lasker – jeśli szachy to król gier, to go jest ich cesarzem. Programiści nie spoczywali na laurach i szukali kolejnych wyzwań. Znaleźli je w grach komputerowych, jak Dota 2. Na czele wyścigu o laury z najlepszymi e-sportowcami, stoi amerykańska firma wspierana pieniędzmi Elona Muska – OpenAI.

Jedne z pierwszych skrzypiec w jej szeregach gra Polak: Filip Wolski.

*********

Pasję do informatyki zaszczepił w Filipie jego licealny nauczyciel, Ryszard Szubartowski.

- Organizował zawody na lekcjach. Dobierał w pary uczniów lepszych i słabszych. Jeden miał uczyć drugiego i jednocześnie utrwalać wiedzę – wspomina Filip. Takie „programowanie w parach”, to dziś chleb powszedni software house’ów. Komercyjnym firmom nie chodzi jednak o edukację programistów, a raczej o zmniejszenie liczby błędów, kiedy specjaliści patrzą sobie na ręce.

Filip Wolski Photographer: David Hill

Koledzy z klasy mogli się jednak tylko uczyć od Filipa, który w 2006 roku przywiózł tytuł mistrza świata z międzynarodowej olimpiady informatycznej. – Była duża radość i duma – wspomina Filip, który już wtedy, jako młody talent, dostawał propozycje pracy w IT. On miał jednak inny plan w głowie. Chciał iść na Uniwersytet Warszawski. Do stolicy ciągnęli go najlepsi w kraju informatycy, parający się dydaktyką, a także starsi koledzy z zespołu, który w Meksyku rozstawiał inne nacje po kątach w programowaniu zespołowym.

Dziś wszyscy rozwijają swoje kariery z prędkością światła. Zarówno Marek Cygan, jak i Marcin Pilipczuk, związali się z uczelniami i komercjalizują autorskie pomysły. Pierwszy odpowiada za technologię w startupie NoMagic, który pracuje nad robotycznym ramieniem do układania porozrzucanych pudełek. – Amazon na pewno bardzo chciałby skorzystać z czegoś takiego w swoich hurtowniach – ocenia Filip. Nasz bohater zamiast pracy naukowej wybrał jednak biznes.

Wyjechał za granicę – do stolicy światowej finansjery, czyli Nowego Jorku, gdzie zatrudnił się przy systemach handlu wysokich częstotliwości, czyli takich, gdzie transakcje zawierane są w ułamkach sekund. Nie ma tam miejsca dla człowieka, bo wygrywa firma, dysponująca lepszymi algorytmami. – Cel jest ten sam, co zawsze w handlu, czyli kupić taniej i drożej sprzedać – tłumaczy Filip. I na tym kończą się proste rzeczy. Współtworzony przez niego system, brał pod uwagę multum szczegółów giełdowych notowań, aby przewidywać fluktuacje cen nawet o ułamki promili.

– Wyobraź sobie, że widzisz handlarzy, którzy chcą kupić dany surowiec za wyższą niż zwykle cenę, ale ich oferty nie znajdują zespojenia. To znaczy, że cena pójdzie w górę. Zakładasz, że nie masz wszystkich informacji z rynku i nie wiesz, że właśnie jest nakręcana spirala na daną rzecz – wyjaśnia. Fachowo nazywa się to book imbalance.

Pojawienie się wielu ofert, które odbiegają od kursu, to pierwszy wskaźnik, że za chwilę stanie się coś ciekawego. Algorytm bierze pod uwagę cały horyzont czynników wokół danego zasobu i sprowadza je do postaci jednej liczby – indeksu, który sugeruje kupno lub sprzedaż. Później indeksy łączy się w holistyczny model, który ogarnia cały rynek i pozwala firmie dokonywać milionów transakcji w tysiącach miejsc w tym samym czasie. Nasz „białkowy interfejs” zbyt wolno łączy wątki i waha się przy podejmowaniu decyzji. Na rewolucję sztucznej inteligencji czekają jednak jeszcze gry komputerowe.

*********

Każdy z nas na co dzień korzysta z dobrodziejstw sztucznej inteligencji. Ta potrafi rozpoznawać ludzi na zdjęciach, serwować dopasowane posty w mediach społecznościowych czy targetować użytkowników w kampaniach reklamowych. OpenAI podchodzi jednak do sprawy w nieco inny sposób. W założeniach ma prowadzić badania nad sztuczną inteligencją, które przyczynią się do demokratyzacji wykorzystania tej technologii. – Chodzi o to, aby nie dzielić ludzkości na dwa obozy: bogatszy, który czerpałby zyski z automatyki i biedniejszy, który nie miałby dostępu do nowej technologii i byłby wyłączony z szybkiego rozwoju – wyjaśnia Filip.

Choć OpenAI nie sprzedaje swoich algorytmów, to nie musi się obawiać o finanse. Wśród mecenasów wspierających badania nad sztuczna inteligencją są m.in. Reid Hoffman, współzałożyciel i szef Linkiedina, a wcześniej najbogatszy człowiek świata Elon Musk czy współtwórca Palantira Peter Thiel. Wspólnie z funduszem Khosla Ventures wyłożyli oni miliard dolarów, które do dziś napędzają rozwój OpenAI. Jeden z pierwszych projektów wcale nie dotyczył jednak gier komputerowych.

OpenAI na początku zabrało się za robotyczną rękę. Miała 5 palców, które mogły zginać się niezależnie w trzech miejscach, a więc dokładnie tak, jak nasze dłonie. Sprzęt trzeba było nauczyć manipulacji obiektami. Silniki same w sobie mogły z łatwością zgnieść małe opakowania, ale tu chodziło o nauczenie algorytmów samodzielnej manipulacji, przewracania na bok czy przesuwania pudełek. Okazuje się, że tak naturalne dla nas czynności są ogromnym wyzwaniem dla współczesnej robotyki. O ile roboty potrafią już skakać z miejsca na miejsce i pokonywać różne przeszkody terenowe, to stopień skomplikowania naszej dłoni wciąż jest dla nich wyzwaniem nie do przeskoczenia. Jak podeszli do niego badacze z OpenAI?

Wykorzystali uczenie maszynowe i sieci neuronowe. Choć brzmi to dość zagadkowo, to da się wytłumaczyć na prostym przykładzie. Każdy z nas może sobie zadać pytanie czy usiadłby na krześle wypełnionym ostro zakończonymi gwoźdźmi. Odpowiedz jest z pewnością negatywna, nawet jeśli nigdy na takim krześle nie mieliśmy przyjemności siedzieć. Wiemy, że się to nie opłaci, bo umiemy wnioskować. Skoro pojedynczy gwóźdź może nam zrobić krzywdę, to przyłożenie do kilku z nich siły równej naszej masie ciała nie może skończyć się dobrze.

Sztuczna inteligencja tego nie przewidzi. Wie, że krzesło jest płaskie, a gwóźdź ostry, ale co się stanie, kiedy połączymy je z naszym ciałem? Musiałaby to sprawdzić na własnej skórze, aby nauczyć się czegoś, co nam podpowiada intuicja. Dlatego boty trzeba trenować. 

A co to w ogóle znaczy trenować? Czego uczymy linijki kodu w czasie treningu? Gdzie SI ma pamięć przechowującą informacje? Swoistą inteligencją można nazwać sieć neuronową, czyli inaczej matematyczny wzór, według którego postępuje algorytm. Na bardzo prostej płaszczyźnie można go rozumieć jako analogię do szkolnego wzoru y=ax+c, gdzie x jest stanem wyjściowym, a i c są parametrami, a y odpowiedzią. W sieci neuronowej takich wzorów są jednak tysiące, jeśli nie miliony. Wspólnie tworzą ogromne macierze, które przekształca się na podstawie doświadczeń. 

Graf. Studio Graficzne Paweł Kwoka

Doświadczenia to nic innego jak działania, które kończą się określonym efektem. Można to wytłumaczyć na przykładzie dziecka, które uczy się chodzić. Bobas po kolei odkrywa, że może się utrzymać na dwóch nogach, zamiast podpierać się rękoma. Widzi, że stawiając nogę, za nogą może się poruszać szybciej, niż na czworaka. Każde z tych doświadczeń to osiągnięcie, które w rozumieniu psychologii behawioralnej prowadzi do pozytywnego wzmocnienia. A jeśli coś przynosi korzyści, to będzie powtarzane. Podobnie wnioskuje algorytm. Przekształca swoje macierze zgodnie z celem wyznaczonym przez człowieka, którym może być np. przewrócenie kostki trzymanej w dłoniach. 

Do komputera dostarczany jest więc obraz z kamer otaczających rękę trzymającą kostkę. Program widzi jakie efekty dają jego czynności i po kolei uczy się tego, co się opłaca albo wręcz przeciwnie. Metodą prób i błędów może dojść do właściwego rozwiązania. Niestety nawet nauczenie się tak prozaicznych czynności, jak obracanie kostki, jest bardzo czasochłonne. Jak przyspieszyć edukację? Przenieść całe środowisko do symulacji!

- To się po prostu opłaca. W świecie cyfrowym możemy uruchomić obok siebie dziesiątki symulacji, na których uczył się będzie nasz program. Dzięki temu, coś, co wymagałoby lat treningów możemy wykonać w ciągu kilku godzin – wyjaśnia Filip. Bot, który współtworzył w ciągu 50 godzin zebrał doświadczenie, na które w świecie rzeczywistym musiałby pracować przez 100 lat. – Inteligencję, jaką bot nabył w symulacji można później bardzo łatwo przenieść do świata rzeczywistego, oszczędzając czas i pieniądze – dodaje.

Projekt zakończył się sukcesem. Robot nauczył się manipulować ręką, ale OpenAI równolegle pracowało nad czymś zupełnie nowym.

*********

Skoro sztuczna inteligencja tak dobrze uczyła się w świecie cyfrowym, to firma postanowiła przenieść się tam w 100 procentach. Za cel postawiła sobie stworzenie bota, który byłby w stania wygrywać skomplikowane potyczki z ludźmi w ich ulubionych grach komputerowych. Wybór padł na Dota 2. Z kilku powodów.

W Dotę 2 grają miliony ludzi na całym świecie. To tworzy ogromną konkurencję i wymusza ciągłe wynajdywanie nowych strategii. – Wygrana wymaga niezwykłej kreatywności i współpracy pięciu członków zespołu. Chcieliśmy zobaczyć czy nasz bot będzie się w stanie tego nauczyć i współpracować ze swoimi „partnerami” czyli kopiami z przeszłości, które teraz są innymi wersjami – zauważa Filip. 

Dota 2 jest też hakowalna. – Nasz bot nie ma kamery, która byłaby przez cały czas nakierowana na ekran, więc wstępnie może uzyskać tylko informacje o położeniu myszki i wciskanych klawiszach, a to o wiele za mało do udanej gry – mówi Wolski. Dlatego jedną z najciekawszych właściwości Dota 2 jest możliwość podłączenia się do jej bibliotek i karmienia bota dodatkowymi informacjami. Specjaliści dbają jednak o to, aby programu nie przekarmić.

Teoretycznie bardzo łatwo dać botowi nieuczciwą przewagę. Gdyby pobierał z gry więcej informacji niż powinien, wiedziałby np. gdzie znajdują się przeciwnicy, choć skrywa ich mgła czy jakie mają wyposażenie. – Bot widzi dokładnie to, co człowiek. Nie przetwarza obrazu, lecz co chwila dostaje od nas podsumowanie sytuacji na mapie w postaci liczbowej. Można to porównać do jednego spojrzenia człowieka – wyjaśnia.

Ale dlaczego właściwie bot nie może mieć kamerki w wysokiej rozdzielczości, której obraz następnie mógłby analizować? 

– Nawet bez użycia kamerki moglibyśmy zczytywać, co gra wysyła do wyświetlenia na ekranie, ale mocno spowolniłoby to nasz trening – wyjaśnia Wolski. Tymczasem w obranej przez OpenAI strategii obraz nigdy nie powstaje. Badacze uruchamiają tysiące gier Dota 2 w chmurze, na których trenuje ich bot. Obraz nie jest jednak generowany ani przez sekundę, bo do niczego nie jest potrzebny. Bot czerpie wiedzę z wewnętrznych bibliotek, a gier najczęściej nikt nie ogląda.– Czasami wejdziemy na kilka minut, aby zobaczyć, jak radzi sobie i skorygować pewne zagrania, które wydają się nam bez sensu, ale raczej jest zostawiamy bota samopas – tłumaczy Filip.

Zespół OpenAI w czasie finałów The International

To tak zwane uczenie przez wzmacnianie, gdyż bot wie, że wygrana jest „dobra”. Dostaje nagrody za wygraną, niszczenie budynków przeciwnika czy pokonywanie herosów. To odróżnia metodę OpenAI od uczenia nienadzorowanego, w którym bot zostałby zostawiony sam ze swoimi klockami i musiałby na własną rękę odkrywać mechanikę gry – dodaje Filip. Bot podejmuje więc decyzję i widzi czy jej konsekwencje pomogły mu w osiągnieciu celu, czy wręcz odwrotnie. Wnioski zapisuje następnie w swoim kodzie. I robi to przez cały czas. Tysiące razy na sekundę, bo dociera do niego mnóstwo informacji. – Dota 2 ma ogromną mapę, po której porusza się 10 herosów. Dodajmy do tego jeszcze postaci neutralne, budynki i mnóstwo przedmiotów – a dostaniemy niewyobrażalną liczbę punktów do obserwacji – wyjaśnia.

Dota 2 jest niezwykle skomplikowana grą. Dla porównania, szachownica ma jedynie 8 pól w jednym kierunku, a porusza się po niej tylko sześć typów pionów. W go plansza jest już większa. Ma wymiary 19x19. Gracze dysponują zaś kamieniami w dwóch kolorach. – Dota 2 ma zdecydowanie więcej wymiarów – mówi Filip. Każdy z herosów może wykonać mnóstwo różnych akcji: zaatakować, wycofać się czy użyć przedmiotu. W każdym momencie takich akcji można podjąć około jednego tysiąca. W szachach jest ich przeciętnie 35, w go 250.

Ale co to właściwie jest „jeden moment”? Czy to jedna klatka renderowanego obrazu? Gdyby rzeczywiście tak było bot miałby przewagę nad przeciętnym człowiekiem. Nowa klatka obrazu renderowana jest co trzydziestą część sekundy, ale człowiek nie jest w stanie tak szybko rejestrować informacji, nie wspominając już o ich przetwarzaniu. Dlatego badacze wprowadzili tu pewne ograniczenie. Bot analizuje jedynie co czwartą klatkę animacji, która dodatkowo dostarczana jest z niewielkim opóźnieniem (4 klatki). W ciągu sekundy program widzi więc kilka obrazów, a właściwie informacji, które powiązanych z daną klatką. Może podjąć 7,5 decyzji w ciągu sekundy, co przybliża go do sytuacji żywego gracza, ale również oszczędza moc obliczeniową, która jest głównym generatorem kosztów.

- Naszym jedynym ograniczeniem są w tym momencie pieniądze – podkreśla Filip. Każdą grę uruchamia na serwerach wynajętych w chmurze. W sumie SI korzysta więc z ogromnej mocy obliczeniowej, na którą składa się 256 kart graficznych i 128 tys. procesorów. To właśnie one umożliwiają OpenAI Five rozgrywanie 250 lat gry w ciągu jednego dnia. Choć ulepszana jest jedna sieć neuronowa, to praktycznie w każdej z gier bierze udział jej pięć instancji, inaczej pięciu agentów, co jest o tyle racjonalne, że drużyna Doty 2 składa się z pięciu graczy. – Mamy jedną sieć neuronową, ale uczy się ona nie tylko grać przeciwko przeciwnikowi, ale również współpracować sama z sobą – wspomina.

*********

Przez 80 proc. czasu maszyna gra nie tylko z samym sobą w jednej drużynie, ale również… przeciwko samej sobie. Dzięki temu bot sam szuka luk w swoim kodzie, które mógłby wykorzystać. Przeciętnie, co piątą minutę spędza zaś na grze ze swoimi wcześniejszymi wersjami. Dzięki temu specjaliści mogą sprawdzić progres z jakim rozwija się ich sieć neuronowa i ustabilizować trening - inaczej bot mógłby zapomnieć czego już nauczył. Wcześniej musiało jednak minąć nieco czasu, zanim sieć nauczyła się korzystać z własnego środowiska.

- Na początku bot włóczył się po mapie bez celu – zaczyna Filip. OpenAI wyznaczyło mu więc pewne podstawowe cele, służące nakierowaniu bota na sens gry w Dotę 2. – Dodawaliśmy punkty za zabicie przeciwników czy nawet znalezienie się w pobliżu takiego zabójstwa; za zniszczenie budynku, zebranie złota i doświadczenia. Wyznaczyliśmy również ujemne punkty za wychodzenie z roli – dodaje informatyk. O jaką rolę chodzi? Przed rozpoczęciem rozgrywki gracze zwykle dzielą się obszarami mapy, które mają kontrolować. Obsadzają trzy linie, łączące wrogie bazy: górną, środkową i dolną. Każda z nich różni się preferowanymi bohaterami czy zadaniami w czasie gry, co wpływa na całokształt rozgrywki. Jeśli jedna rola (linia w Docie) radzi sobie wybitnie słabo, to przewaga na pozostałych może nie wystarczyć do zwycięstwa. Podobnie, jak w piłce nożnej – jeśli wszyscy rzucą się do ataku, to nie będzie komu bronić. – Bot dostawał ujemną nagrodę, jeśli wykraczał poza swój obszar, więc bardzo szybko nauczył się postępować według zasad. I… od czasu do czasu je łamać, jeśli uznał, że w innym obszarze dzieje się coś ciekawego – tłumaczy Filip.

Po kilku miesiącach bot był już na tyle sprawny, że pokonywał członków zespołu OpenAI. – Powiedzmy sobie szczerze… to nie było wymagające zadanie – śmieje się Wolski. Pracownicy OpenAI doskonale znają mechanikę Doty 2, ale sami nie są wybitnymi graczami. Aby zbadać prawdziwego skilla bota zaprosili więc do pomocy e-sportowców. Zaczęło się od emerytów, którzy kiedyś aktywnie zasiadali za klawiaturami i myszkami, a dziś najczęściej koncentrują się na streamingu. 

Mecze jeden na jednego już w połowie 2017 roku pokazały, że ludziom rośnie konkurent. Bot nie tylko korzystał z braku manualnych ograniczeń, ale również samodzielnie wpadał na strategie, używane przez profesjonalistów. Z łatwością podpuszczał swoich przeciwników. Udawał, że rzuca zaklęcie i odwoływał je w ostatnim momencie, aby nie uszczuplić własnych zasobów. Gracze nie spodziewali się takiego zagrania i dawali się złapać w pułapkę.

Aut. Studio Graficzne Paweł Kwoka

OpenAI grało jednak wówczas w bardzo uproszczoną Dotę. Mecz z ludźmi można bowiem było określić jako pojedynek rewolwerowców. Scenerię Dzikiego Zachodu zastąpił tzw. mid, czyli środkowa linia na mapie, łącząca oba obozy. Po jej przeciwnych końcach stanęli dwaj, identyczni bohaterowie, co gwarantowało równe zasady i najlepszy test szybkiego podejmowania decyzji.

*********

W sierpniu 2017 roku bot był już gotowy na starcie z najlepszymi graczami Stanów Zjednoczonych. Wolski i spółka do pojedynku zaprosili Evil Geniuses, czyli najlepszą drużynę 2015 roku. Rezultat: ludzie musieli uznać wyższość programu komputerowego. Bot przegrał tylko jedną z dziesięciu gier. – Czułem się jakbym grał przeciwko mądrzejszej wersji samego siebie – mówił wówczas Artour Arteezy Babaev, jeden z najlepszych graczy na swojej pozycji.

Bot szybko wyciągał wnioski. Przegrana jednego meczu sprawiła, że w kolejnym wykorzystanie przeciwko niemu tej samej strategii było jak uderzanie grochem o ścianę. Dziury były łatane błyskawicznie. Program w każdym momencie punktował błędy przeciwnika i z chirurgiczną precyzją dążył do anihilacji. Pierwszy etap został zakończony pełnym sukcesem.

Minął rok i latem 2018 OpenAI weszło na nowy poziom. Do nazwy dodano „five”, bo teraz sztuczna inteligencja była w stanie grać w zespole. Gra pięciu na pięciu na największym turnieju e-sportowym na świecie, The International, znów przyciągnęła wzrok całego środowiska. Tym razem naprzeciwko drużyny botów stanęły dwa zespoły najwyższej klasy – brazylijskie paiN, a także chiński zespół gwiazd. Okazało się, że było za wcześnie na strzały korków od szampana. Choć OpenAI Five prowadziło wyrównaną walkę nawet przez 30 min rozgrywki na każdej mapie, to w końcu uległo ludzkim zespołom. – Zyskaliśmy cenną lekcję, która pokazała, gdzie powinniśmy popracować na algorytmem – zauważa Filip.

Największym problemem okazało się planowanie, czyli gra w długim horyzoncie czasowym. – Bot wolał wygrać 1 punktem teraz, niż 10 punktów za 10 minut – wyjaśnia Wolski. Co z tego wynika? Program przedkładał bezpieczną grę tu – teraz i teraz, zdobywanie zasobów i powolne podgryzania przeciwnika, nad długie planowanie czy heroiczne akcje. Taka taktyka dobrze sprawdzała się w momencie gry na przewagi, ale kiedy ludzie odskakiwali botowi, ten nie był w stanie postawić wszystkiego na jedną kartę i zaryzykować. A kiedy traci się dystans do przeciwnika nie można już grać bezpiecznie.  

Ludzie wygrywali również strategią asymetryczną. To znaczy, czwórka graczy przez cały czas walczyła w pierwszym szeregu, podczas gdy piąty gracz na ich tyłach spokojnie budował potęgę swojego bohatera. Wkraczał do gry dopiero w jej decydującym momencie i z palcem w nosie roznosił w pył wymęczonych walką przeciwników. AI było bezbronne.

Przyszedł czas na wyciąganie wniosków. OpenAI Five musiało bowiem iść do przodu i radzić sobie w nieprzewidywalnych warunkach. – Nie chcieliśmy, aby bot uczył się gry na pamięć, więc co chwila zmienialiśmy przedmioty, możliwości herosów czy dostępne jednostki – wyjaśnia Filip. Stopień skomplikowania OpenAI Five rósł wykładniczo; do tego stopnia, że dziś bot jest na tyle zaawansowany, że programiści sami nie wiedzą jak konkretnie działa... – Nie wiemy, jak wpłynąć na poszczególne neurony, żeby wywołać konkretne zachowanie. Program żyje własnym życiem i jest zbyt skomplikowany dla jednostkowej analizy, choć wciąż mamy kontrolę nad jego rozwojem – podkreśla i podaje przykład z początku treningów. – Kiedy zaczynaliśmy implementację gry na pięciu zawodników, bot zbierał cały zespół do kupy i atakował grupą. Robił tak, ponieważ w trakcie treningu nie miał okazji grania z siłami rozdzielonymi na parę regionów mapy, a to zazwyczaj najlepsza strategia na początku gry. Dlatego zachęciliśmy bota do rozdzielania drużyny. Po prostu dorzuciliśmy nagrodę do takiego zachowania – Filip wyjaśnia naturę uczenia pod nadzorem.

*********

Pod koniec 2018 roku bot opanował zespołowe strategie ludzi, nauczył się wykorzystywać podstęp, oszukiwać, wciągać w pułapkę i tworzyć własne strategie.

– Jeden z graczy, który testował bota, miał później okazję zmierzenia się z jednym z najlepszych zawodników Dota 2 na świecie, 1 na 1. Przegrał całą serię gier, ale na koniec pomyślał, że… zagra jak bot. I bach, tę grę akurat wygrał – podkreśla pełnym zdumienia głosem Filip. Jego bot może być więc nie tylko sparing-partnerem, ale również innowatorem, od którego ludzie mogą nauczyć się nowych sztuczek.

Filip Wolski na Infoshare fot. Dominik Batorski InfoShare-min

Prawdziwy sprawdzian przyszedł w kwietniu 2019 roku. Na pojedynek udało się wówczas namówić najlepszą drużynę na świcie – OG, która podczas The International 2018 nie miała sobie równych. OpenAI podniosło więc sobie poprzeczkę na rekord świata. Przy komputerach mieli bowiem zasiąść najlepsi z najlepszych.

Mecz zaplanowano na maksymalnie trzy partie, ale ostatniej nie trzeba było już rozgrywać. Bot okazał się na tyle sprawny, że odesłał ludzi z kwitkiem już po niecałej godzinie. OG broniło się jeszcze przez pierwszą część pierwszej mapy, ale OpenAI Five postawiło wyjątkowo trudne warunki. Grało agresywnie i stosowało niekonwencjonalne metody, takie jak natychmiastowe ożywianie poległych bohaterów. Widać więc było, że program dalej maksymalizuje przewagę w krótkim okresie, ale teraz ludzie nie mogli ukarać go w finalnej części rozgrywki. Druga mapa była już tylko formalnością. Najwybitniejsi gracze nie znaleźli recepty na bota.

OpenAI dopięło swego. Po szachach i go ludzie zostali strąceni z tronu także w Docie 2, grze o wiele bardziej skomplikowanej.

Ale czy to oznacza, że pod wpływem poniesionej porażki ludzie przestaną grać w MOBA? Nic bardziej mylnego, podobnie, jak nie przestali grać w szachy czy Go, kiedy powstały lepsze od nich algorytmy. - Sztuczna inteligencja tylko wzbogaciła rozgrywkę. - Bot bardzo często zaskakuje ludzi strategiami, na które sami by nie wpadli. Ale to tylko początek. Jeśli chodzi o bardziej utylitarystyczne podejście, to gracze zyskali dostęp do przeciwnika o dowolnej sile, w dowolnym momencie, co mogło im pomóc w treningu – wymienia Filip. Bot był bowiem dostępny przez pewien czas na serwerach, gdzie mogli się z nim zmierzyć chętni śmiałkowie. 

Choć osiągnięcie OpenAI jest kamieniem milowym w dziedzinie sztucznej inteligencji, to wciąż musi się zmagać z dużymi ograniczeniami. Przykładowo, pula herosów, z których korzysta jest ograniczona możliwościami programistycznymi. - Niektórych zachowań nie potrafimy obsłużyć. Chodzi np. o dodatkowe jednostki, które przywołują herosi. Nie mamy po prostu zaimplementowanej ich kontroli – tłumaczy Filip.

To, jakie informacje trafiają do bota zależy tylko od decyzji programistycznych ludzi. Choć program nauczył się generalizować informacje i przyswajać nowości w coraz szybszym tempie, to od prawdziwej sztucznej inteligencji dzielą go jeszcze lata świetlne.

Więcej o Filipie Wolskim ale także o pierwszym profesjonalnym graczu znad Wisły, którzy po maturze rzucił wszystko i wyjechał do Seulu, aby dołączyć do profesjonalnej ligi Starcrafta czy początkach „Złotej Piątki”, czyli najbardziej utytułowanej formacji w historii polskiego CS-a w książce Karola Kopańko.

Grafiki w tekście i grafika tytułowa pochodzą z książki. Autor: studio graficzne Paweł Kwoka