Microsoft stworzył cyfrowego malarza. Sztuczna inteligencja narysuje to, czego sobie zażyczymy
Narysuj palmę na pustyni. Proste polecenie, prawda? Dla programu komputerowego to jednak duże wyzwanie. Co to jest palma? Jak wygląda palma? Jak ją wpasować w pustynię? No chyba, że mówimy o algorytmach sztucznej inteligencji.
Microsoft nieustannie rozwija swoją sztuczną inteligencję, trafnie diagnozując, że właśnie ta dziedzina to jeden z kluczowych elementów informatyki przyszłości. Jedynym z najnowszych projektów, jakim firma właśnie się pochwaliła, jest algorytm, który potrafi tworzyć obrazy przedstawiające to, o co poprosimy wprowadzając tekst.
Innymi słowy, microsoftowej SI ma wystarczyć polecenie narysuj mi ptaszka z żółtymi piórami, czarnymi skrzydełkami i krótkim dziobem, by ta stworzyła dokładnie taki obraz, o jaki chodziło. Mechanizm ten przy tym nie ma jakiejś wymyślnej nazwy, przynajmniej na razie. Microsoft nazywa go drawing bot, czyli botem do rysowania.
Drawing bot Microsoftu wykorzystuje nie jeden, a dwa modele uczenia maszynowego. W efekcie komputer rysuje realistyczny, unikalny obraz.
Sercem drawing bota jest GAN (Generative adversarial network), a więc zestaw algorytmów SI do uczenia nienadzorowanego ułożonych w formie systemu dwóch sieci neuronowych konkurujących ze sobą na zasadzie gry o sumie stałej.
Mówiąc nieco prościej, pierwszy z modeli uczenia maszynowego odpowiada za generowanie obrazu na podstawie opisu zapewnionego przez użytkownika. Jego dyskryminatorem jest drugi model, który odpowiada za ocenę autentyczności wygenerowanego obrazu. Oba modele działające w tandemie mają zapewnić bezbłędny efekt końcowy.
Microsoft na swoim blogu twierdzi przy tym, że drawing bot wykracza poza założenia sieci GAN. Swoją implementację nazywa AttnGAN (Attentional GAN), dzięki któremu mechanizm jest zdolny do podejmowania decyzji na temat kluczowości poszczególnych cech opisu użytkownika a także potrafi domyślić się tego, czego użytkownik nie sprecyzował. Przykładowo, skoro użytkownik chce żółtego ptaszka, a większość zdjęć w Internecie z ptakami przedstawia je siedzące na gałęziach, to drawing bot będzie potrafił wywnioskować, że również i użytkownik oczekuje obrazka tego ptaszka na gałęzi, choć wcale tego tak nie wyraził.
Jeżeli drawing bot wyjdzie poza fazę prototypu – i jeżeli będzie dobrze działał – może na zawsze zmienić rynek fotografii. Usługi ze zdjęciami stockowymi i clipartami staną się dużo mniej potrzebne, skoro użytkownik będzie mógł sobie wygenerować co właściwie chce, gdzie każdy piksel będzie rysowany od nowa. Na razie jednak drawing bot to bardziej projekt naukowy niż gotowy produkt. Jego ewentualne udostępnienie internautom to wciąż odległa przyszłość.