Usługi internetowe od dawna potrafią tworzyć opisy do zdjęć, ale DALL-E to pierwszy program działający odwrotnie. Tworzy „zdjęcia” na bazie opisów. Szykuje się przełom.

Przyzwyczailiśmy się już do tego, że tzw. algorytmy sztucznej inteligencji potrafią automatycznie tworzyć opisy do zdjęć. Rozpoznawanie obiektów na zdjęciach to w końcu podstawa działania chociażby tak popularnego narzędzia jak wyszukiwarka zdjęć w Google’u. Automatyczne podpisy do zdjęć poprawiają też dostępność stron internetowych dla osób z niepełnosprawnościami.

Mieszcząca się w San Francisco firma OpenAI zadała sobie pytanie co stałoby się, gdyby odwrócić ten proces. W efekcie powstał DALL-E, czyli pierwsze na świecie narzędzie, które nie tworzy opisów do istniejących obrazów, lecz… tworzy obrazy i „zdjęcia” na bazie opisów.

Wpisujesz w programie „fotel w kształcie awokado” i otrzymujesz takie wyniki

A może chciałbyś zobaczyć połączenie sześcianu i jeżozwierza? Proszę bardzo.

Pluszowy pingwin? DALL-E nie ma z tym problemu.

Są też bardziej przyziemne - i to dosłownie - przykłady działania programu DALL-E. Poniżej efekt, jaki program wygenerował dla zapytania „widok żółwia na ściółce leśnej z obiektywu typu rybie oko”.

Zwracane rezultaty mają różny poziom szczegółowości. Przy bardzo konkretnych zapytaniach, gdzie jest małe pole do interpretacji, wyniki najczęściej są dość nieostre.

Wszystkie powyższe grafiki wygenerował program na bazie algorytmów uczenia maszynowego, które stają się tym lepsze im dłużej pracują. Algorytmy są karmione danymi wsadowymi, które są analizowane przez program, a z każdym przeanalizowanym zdjęciem stają się mądrzejsze i potrafią lepiej improwizować.

Co więcej, DALL-E może nawet naśladować style graficzne, dążąc do fotorealizmu (na ile to obecnie możliwe) lub odwrotnie, idąc w kierunku szkiców lub grafiki rodem z kreskówek.

Czy DALL-E zastąpi fotografię stockową?

To dopiero początek rozwoju takiej technologii, ale nawet na tym etapie program DALL-E działa bardzo dobrze. Póki co efekty dość łatwo odróżnić od prawdziwych zdjęć, ale program będzie rozwijany. Algorytm sam z siebie staje się coraz lepszy dzięki uczeniu maszynowemu, a przecież programiści również będą mu pomagać.

Zastosowań dla tej technologii może być mnóstwo. Może się okazać, że za kilka lat fotografia stockowa przestanie być potrzebna. Zamiast szukać w bankach zdjęć ilustracji do wpisie na blogu, można będzie go wygenerować od zera. Bez potrzeby dbania o prawa autorskie. Aż trudno uwierzyć, że takie projekty są już rzeczywistością.