Sztuczna inteligencja Mety dokonała niemożliwego. Cicero do perfekcji opanował grę w Dyplomację
Sztuczna inteligencja opanowała już szachy, go czy pokera, ale jak dotąd nigdy nie udało jej się wygrać w grach opartych na dialogu i zrozumieniu intencji drugiej osoby. Jak przekonuje Meta, jej oddział odpowiedzialny za sztuczną inteligencję właśnie opracował model zdolny zrozumieć i zdobyć zaufanie człowieka, podbijając rankingi popularnej gry w Dyplomację.
Efekty tych prac to m.in. sztuczna inteligencja zdolna tłumaczyć z języków, które nie posiadają formy zapisu. Dzisiaj Meta przychodzi z kolejnym kamieniem milowym w rozwoju sztucznej inteligencji - agentem SI o nazwie Cicero, który negocjuje, przekonuje i współpracuje z ludźmi. A dokonuje tego poprzez popularną grę Dyplomacja.
Sztuczna inteligencja od Meta AI mistrzem Dyplomacji
Gry z prawdziwymi ludźmi od dekad stanowią nie tylko pole treningowe dla sztucznej inteligencji, ale przede wszystkim sposób na pokazanie jak daleko zaszła technologia. W 1997 roku Deep Blue wprawiło świat w osłupienie, wygrywając z arcymistrzem szachowym Garrym Kasparowem. Z kolei w 2015 roku AlphaGo jako pierwszy program komputerowy w historii pokonał zawodowego gracza w starochińską grę planszową go.
Zarówno szachy, jak i go cechują się pewnym zestawem zasad, które na podstawie danych pochodzących z setek gier można wpoić sztucznej inteligencji. A dzięki kolejnym setkom nauczyć ją strategii i podejmowania decyzji, które przechytrzą człowieka.
Dyplomacja (ang. Diplomacy) to gra, która przez lata była uważana za niemożliwą do opanowania przez sztuczną inteligencję. Gra wymaga od komputera nie tyle matematycznego zrozumienia ruchów wykonywanych na planszy, ile zrozumienia planów, spojrzenia na rozgrywkę i motywacji innych graczy. Następnie sztuczna inteligencja musi przekuć to zrozumienie na wiadomości w języku naturalnym, które przekonają ludzkich graczy do jej racji.
Jak wytrenować mistrza gry?
Meta do stworzenia agenta Cicero połączyła dwa typy modeli sztucznej inteligencji: model myślenia strategicznego (podobny do AlphaGo i Deep Blue) oraz model przetwarzania języka naturalnego (podobny go GPT-3). Umiejętności modelu myślenia strategicznego pozwoliły Cicero na podejmowanie najlepszych dla siebie decyzji, z kolei przetwarzanie języka naturalnego pozwoliło sztucznej inteligencji na naturalny dialog z graczami.
Cicero został wytrenowany na modelu językowym typu BART posiadającym 2,7 miliarda parametrów pochodzących z różnego typu tekstów z internetu, a następnie udoskonalonego za pomocą danych treningowych pochodzących z 40 tysięcy gier przeprowadzonych online pomiędzy ludzkimi graczami na WebDiplomacy.net.
Dzięki takiemu treningowi Cicero był w stanie stać się jednym z najlepszych graczy przeglądarkowej wersji Dyplomacji, osiągając "ponad dwukrotność przeciętnego wyniku" i wspinając się do top 10 graczy, którzy rozegrali więcej niż jedną grę.
"CICERO może na przykład wywnioskować, że w dalszej części gry będzie potrzebować wsparcia jednego konkretnego gracza, a następnie opracować strategię, aby zdobyć jego przychylność - a nawet rozpoznać ryzyko i szanse, które ten gracz widzi ze swojego punktu widzenia."
- pisze Meta
Jak deklaruje Meta, pomimo że Cicero jest zdolny jedynie do gry w Dyplomację, technologia wykorzystana do stworzenia agenta SI ma wiele zastosowań w świecie rzeczywistym. Zdaniem Meta AI kontrolowanie generowania języka naturalnego poprzez planowanie i uczenie przez wzmacnianie może wspomóc w przełamywaniu barier komunikacyjnych między ludźmi a agentami napędzanymi przez sztuczną inteligencję.
Technologia zastosowana w Cicero mogłaby sprawić, że asystenci głosowi oprócz odpowiadania na proste pytania oparte o dane dostępne w internecie (np. "Jaka jest teraz pogoda?"), mogliby również prowadzić dłuższe rozmowy, których efektem byłaby nauczenie ludzi nowych umiejętności. Cicero mógłby przysłużyć się również deweloperom gier, którzy mogliby wykorzystywać SI w dialogach z NPC (postaciami niegrywalnymi), aby te zamiast powtarzania formułek były w stanie przeprowadzić z graczem rozmowę, która miałaby realny wpływ na rozgrywkę.