REKLAMA

Midjourney właśnie zyskał nową funkcję, która powinna przerazić każdego twórcę

Stało się. Do tej pory Midjourney potrzebował promptów, czyli poleceń, za których pomocą opisywaliśmy obrazek, który chcemy żeby wygenerował. Od ich precyzyjności zależała dokładność otrzymanego obrazu. Pojawiały się już nawet głosy, że umiejętność pisania odpowiednich promptów może być jedną z cech poszukiwanych przez pracodawców w przyszłości. Jeżeli zaczęliście się pod tym kątem edukować, to przestańcie. Midjourney sam sobie pisze polecenia i robi to lepiej niż ludzie.

Midjourney właśnie zyskał nową funkcję, która powinna przerazić każdego twórcę
REKLAMA

Nie będę streszczał czym jest Midjourney, bo moi redakcyjni koledzy napisali na ten temat wiele tekstów, które krok po kroku tłumaczą czym jest ten generator obrazów i jak z niego korzystać. Twórcy nieustannie go rozwijają, a nakarmiony odpowiednią liczbą danych potrafi tworzyć cuda, ale należy mu wskazać drogę, w którą jest właśnie prompt.

Bardziej zaawansowani użytkownicy strzegli poleceń jak oka w głowie, ale już nic im to nie da, bo wraz z kolejną aktualizacją, tym razem o numerze V5 Midjourney zmienił zasady gry. Twórcy ogłosili, że wprowadzają funkcję /describe, za pomocą której to program sam odczyta sobie prompty z przesłanego mu obrazka.

REKLAMA

Jak to wygląda w praktyce pokazuje poniższy filmik, obejrzyjcie go uważnie, bo będzie punktem odniesienia.

Funkcja /describe zmienia więcej, niż mogłoby się wydawać.

Po załadowaniu dowolnego zdjęcia Midjourney skanuje przesłany plik i na podstawie tego co uda mu się wyodrębnić podaje cztery propozycje promptów. Przyjrzyjmy się na podstawie ikonicznego zdjęcia wykonanego przez Alfreda Eisenstaedta w sierpniu 1945 roku, na którym na wieść o zakończeniu wojny z Japonią pijany marynarz całuje przypadkową pielęgniarkę. Zdjęcie należy do najbardziej rozpoznawalnych ujęć na świecie, a teraz posłużyło jako przykład mocy Midjourney.

Cztery podpowiedzi zawierają kluczowe opisy - marynarz, pielęgniarka, zdjęcie monochromatyczne, ikoniczne zdjęcie, zatłoczona ulica itd. Pierwsza podpowiedź jest bardzo ogólna, ale każda następna coraz bardziej uszczegóławia wprowadzone zdjęcie. Dodatkowo na tym etapie istnieje możliwość edytowania podpowiedzi, gdyby użytkownik chciał coś dodać od siebie, albo wręcz odwrotnie - usunąć coś ze zdjęcia.

Program generuje obrazki, a później pokazuje po cztery wygenerowane do każdego promptu. Każdy z nich będzie miał już nowy prompt, więc jeżeli jakieś zdjęcie wpadnie w oko użytkownikowi, ale ten np. będzie wolał nanieść jakieś poprawki, to może to zrobić w nowym wierszu polecenia. Efekty są niesamowite.

Wspaniałe, prawda? Zacznijcie szybko kształcić się w prawie autorskim

Do tej pory napisanie odpowiedniego promptu było sztuką. Sam dałem się złapać na papieża w designerskiej kurtce. Teraz wystarczy znaleźć obrazek w internecie i za pomocą funkcji describe zrobić taki sam, lub nawet go ulepszyć. Prawa autorskie robią głośne ioioio. Być może słyszeliście o pewnym zdjęciu, które wygrało konkurs fotograficzny. Nazywa się Theatre D'opera Spatial i całości zostało wygenerowane przez AI. Jego twórca zapowiadał, że nie podzieli się promptem użytym do wygenerowania obrazu, ale co z tego, skoro teraz Midjourney sam sobie znajdzie właściwy prompt?

Prompty do tej pory były najważniejsze, powstawały nawet fora, gdzie ludzie wymieniali się podpowiedziami, wspólnie głowili się nad tym, jakie prompty zostały użyte, bo jeżeli myślicie, że wystarczy wpisać gołąb w okularach pijący drinka na plaży, żeby otrzymać ładny obraz to jesteście w błędzie. Pokażę to na przykładzie z Binga:

Wygenerowane za pomocą Bing Image Creator

A gdy dodam kilka dodatkowy fraz do promptu dostaję taki obraz:


Wygenerowane za pomocą Bing Image Creator

Gdybym wystarczająco długo próbował odpowiednie kombinacje słów, to w pewnym momencie doszedłbym do obrazu, który wyglądałby jak prawdziwy. To moja wartość dodana, mój skill i czas włożony w jego zdobycie. Tymczasem Midjourney i jego funkcja describe sprawia, że to wszystko traci sens, bo sztuczna inteligencja sama znajdzie prompt, przetworzy go i wygeneruje kolejny. Nakarmiliśmy ją taką ilością danych, że za chwilę przestaniemy być do czegokolwiek potrzebni.

Jedyne wyjście to walka na gruncie praw autorskich

Niestety zanim ustawodawcy poszczególnych państw rozwiążą ten problem, to upłynie tyle czasu, że sztuczna inteligencja zdąży sama napisać właściwe prawo. Moim zdaniem trzeba sięgnąć po sprawdzone rozwiązanie, np. Content ID, które znamy chociażby z serwisu YouTube. Musi powstać narzędzie, które w łatwy i automatyczny sposób zidentyfikuje treści, które są chronione prawem autorskim, a które zostały przetworzone przez Midjourney i podobne programy. Wszystko jednak rozbija się o koszty - Content ID kosztował Google setki milionów dolarów, ale z drugiej strony wygenerował kilka miliardów dolarów płatności dla właścicieli praw autorskich. Problemem branży fotograficznej i artystycznej jest to, że nie ma dużych wytwórni/firm, które są w stanie wyłożyć pieniądze na takie zabezpieczenie.

REKLAMA

Tymczasem to się już dzieje w muzyce. Universal Music właśnie zgłosił utwór muzyczny, który zawierał wygenerowany cyfrowo głos Eminema rapującego o kotach, jako naruszający prawa autorskie. I YouTube film zdjął. Oznacza to, że sztuczna inteligencja właśnie napotkała przeciwnika z pieniędzmi, który ma doświadczenie w walce z kopiowaniem i rozpowszechnianiem treści. Wynik tej potyczki ustali zasady na kilka najbliższych lat. Czy stanie się tak z twórcami fotografii, którymi karmi się Midjourney? Obawiam się, że nie, bo z jakiegoś powodu kradzież zdjęć jest bagatelizowana. Czy doszliśmy do momentu, w którym generatory obrazów przestają potrzebować człowieka? Jeszcze nie, ale jego udział został wydatnie zminimalizowany. Obiecany nam nowy wspaniały świat ostatecznie może stać się niezbyt fajnym miejscem dla twórców.

Zdjęcie główne: Solarisys / Shutterstock.com

REKLAMA
Najnowsze
REKLAMA
REKLAMA
REKLAMA