Nie trzeba fotografa, Nvidia GauGAN2 tworzy zdjęcia z tekstowych opisów
Nvidia GauGAN2 to nowa generacja algorytmu AI, który robi coś z niczego, a konkretnie tworzy zdjęcia z tekstu. Tym razem efekty są fotorealistyczne, a tworzy je w całości sztuczna inteligencja.
Od dłuższego czasu przyglądam się algorytmom AI tworzonym przez Nvidię i jestem szczerze zachwycony, że sztuczna inteligencja działa dziś tak dobrze. Najlepszym przykładem takiej technologii jest algorytm GauGAN2, który generuje fotorealistyczne obrazy na bazie tekstowego opisu.
Wpisujesz tekst, wychodzi zdjęcie. Tak działa sztuczna inteligencja Nvidii.
Nvidia podzieliła się filmem pokazującym działanie nowego algorytmu GauGAN2. Jest to algorytm przetwarzający tekst w języku angielskim na obrazy generowane na żywo, przy użyciu uczenia maszynowego. Algorytmy nakarmione tysiącami zdjęć w pierwszej fazie były uczone rozpoznawania obiektów na zdjęciach, a w następnej tworzyć konkretne obiekty na zasadzie mieszania fragmentów obrazów, które wcześniej zostały wgrane do systemu.
W efekcie uzyskujemy algorytm, który dla słowa „river” ang. rzeka) generuje takie obrazy.
Można jednak pójść dalej, co pokazuje serwis Petapixel. Oto przykład obrazka wygenerowanego dla frazy „a peaceful lake surrounded by tall trees in a foggy day” (spokojne jezioro otoczone wysokimi drzewami w mglisty dzień).
Tutaj z kolei możemy zobaczyć działanie algorytmu dla zapytania „a tropical island with white sand beach view from above” (tropikalna wyspa z plażą o białym piasku widziana z góry).
Imponujące, prawda? A to dopiero początek, bo algorytm można dostosowywać do swoich potrzeb. Jednym kliknięciem można dostosować styl obrazka do jednej z kilku zaprogramowanych pór dnia. System GauGAN2 potrafi w taki sposób generować krajobrazy, rośliny, teren i budynki.
Nvidia kolejny raz przesuwa granice tego, co potrafi AI.
Co najlepsze, nowy system GauGAN2 nie jest algorytmem działającym gdzieś na wewnętrznych komputerach odizolowanych od świata biur R&D. Tym razem możemy się pobawić nowym algorytmem sami, do tego bez potrzeby instalacji żadnych programów, bowiem Nvidia udostępnia kreator obrazów w przeglądarce.
Algorytm GauGAN2 został zaimplementowany obok systemu generowania obrazów na bazie szkiców, czy wręcz bazgrołów, o którym pisaliśmy w połowie roku. Całość jest w fazie beta, ale już teraz efekty bywają imponujące, choć nie zawsze bezbłędne.
Do czego może przydać się taka technologia? Generowanie fotorealistycznych obrazów na bazie bardzo prostych danych wsadowych może przydać się nie tylko artystom i grafikom, ale ma też szanse trafić do segmentu gier. Łatwo wyobrazić sobie tytuł, w którym odwiedzamy nieskończone światy generowane przez algorytm, a jednocześnie wyglądające niezwykle realistycznie.