REKLAMA
  1. SPIDER'S WEB
  2. Technologie
  3. Nauka

Opisujesz, co chcesz zobaczyć, a Google zamieni tekst na fotorealistyczny obraz. To działa!

Zdjęcie Corgi w okularach przeciwsłonecznych na Broadwayu? Wąż z kukurydzy? A może drewniana maskotka Androida? Te i inne obrazy nie są dziełami artysty, a sztucznej inteligencji stworzonej przez Google. Choć projekt jest nadal w trakcie rozwoju, zespół inżynierów udostępnił stronę, na której możesz samodzielnie wygenerować obraz olejny przedstawiający pandę na deskorolce.

Sztuczna inteligencja Google zamienia tekst na obraz
REKLAMA

23 maja Google zaprezentowało swój własny system sztucznej inteligencji, który jest w stanie tworzyć fotorealistyczny obraz na podstawie wprowadzonego tekstu. Docelowo inżynierowie chcą stworzyć SI na tyle inteligentne, by użytkownicy mogli wprowadzić dowolny opis, a sztuczna inteligencja przetworzy go na fotorealistyczny obraz. Jak twierdzi Google, model dyfuzji Imagen stworzony przez zespół Brain Team w Google Research oferuje "bezprecedensowy stopień fotorealizmu i głęboki poziom zrozumienia języka.

REKLAMA

Koncepcja przetwarzania tekstu na obraz - choć imponująca - nie jest nowa. Inżynierowie stworzyli już kilka tego typu modeli sztucznej inteligencji, w tym najbardziej znany DALL-E (i jego następca DALL-E 2) stworzony przez OpenAI, który umiejętnie tworzył obrazy na podstawie wpisanych fraz. Celem Google jest stworzenie równie precyzyjnej sztucznej inteligencji, która jednocześnie tworzy realistyczne obrazy.

Aby porównać możliwości Imagen z innymi modelami sztucznej inteligencji przetwarzającej tekst na obraz (m.in. DALL-E 2, VQ-GAN+CLIP czy Latent Diffusion Models), naukowcy stworzyli listę 200 fraz, które zostały wprowadzone do każdego z modeli, by wygenerować obrazy. Następnie obrazy wygenerowane na podstawie tych samych fraz zostały przedstawione osobom biorącym udział w eksperymencie, których zadaniem było ocenienie próbek pod względem jakości oraz precyzyjności, z jaką sztuczna inteligencja odtworzyła daną frazę (czyli np. czy obraz z frazy "pies rasy Corgi" przypomina psa, a jeżeli tak to czy przypomina Corgi). Jak twierdzi Google, osoby oceniające wygenerowane obrazy preferują te stworzone przez Imagen - zarówno pod względem jakości jak i dokładności.

"Zdjęcie psa rasy Shiba Inu ubranego w kapelusz kowbojski i czarną skórzaną kurtkę, grającego na gitarze na szczycie góry"

Choć strona poświęcona Imagen zawiera sporą liczbę obrazów stworzonych przez ową sztuczną inteligencję, warto zaznaczyć, że nie są to wszystkie dzieła. Istnieje duże prawdopodobieństwo, że obrazy wygenerowane przez Imagen zostały poddane selekcji tak, aby pokazać "najlepsze z najlepszych".

Publiczne udostępnienie Imagen to wyzwanie, ale i ryzyko

Podobnie jak DALL-E, Imagen nie jest dostępny publicznie. Google uważa, że ​​jak dotąd nie nadaje się do użytku przez ogólną populację z wielu powodów. Po pierwsze, modele tekstu na obraz są zwykle trenowane na dużych zestawach danych, które są pobierane z sieci i nie są poddane dokładnemu przeglądowi, a to zdaniem inżynierów z Brain Team powoduje szereg problemów.

Chociaż takie podejście umożliwiło w ostatnich latach szybki rozwój algorytmów, tego rodzaju zbiory danych często odzwierciedlają stereotypy społeczne, opresyjne punkty widzenia i uwłaczające lub w inny sposób szkodliwe skojarzenia z marginalizowanymi grupami społecznymi. [...]
Podczas gdy nasz podzbiór danych treningowy został przefiltrowany w celu usunięcia nieprecyzyjnych i niepożądanych treści, takich jak pornografia i toksyczny język, wykorzystaliśmy również zestaw danych LAION-400M. Owy zestaw danych znany jest z posiadania dużego zasobu danych, w tym obrazy pornograficzne, rasistowskie obelgi i szkodliwe stereotypy społeczne.

REKLAMA

Jak twierdzą naukowcy, efektem zastosowania LAION-400M, Imagen "odziedziczył" "społeczne uprzedzenia i ograniczenia dużych modeli językowych" i jest w stanie generować treści zawierające "szkodliwe stereotypy. Zespół badaczy Google stwierdził, że dotychczasowe prace nad Imagen dowodzą, że sztuczna inteligencja koduje uprzedzenia społeczne - w tym tendencje do tworzenia obrazów osób o jaśniejszych odcieniach skóry i umieszczania ich w pewnych stereotypowych rolach płci. Ponadto naukowcy zauważają, że istnieje możliwość nadużycia, jeśli Imagen zostanie udostępniony opinii publicznej w takim stanie, w jakim jest.
Mimo to zespół badaczy zapowiada, że w przyszłości może rozważyć publiczne udostępnienie Imagen w celu "audytu zewnętrznego" przez użytkowników Internetu.

Póki co, Imagen w bardzo ograniczonej formie dostępny jest na stronie Internetowej projektu. Użytkownicy są w stanie "stworzyć" własny obraz na podstawie predefiniowanych fraz. Więc jeżeli kiedykolwiek marzyło ci się zobaczyć obraz olejny szopa pracza ubranego w skórzaną kurtkę na plaży lub kota perskiego w kapeluszu kowbojskim jeżdżącym na rowerze, teraz masz szansę aby spełnić to marzenie.

REKLAMA
REKLAMA
REKLAMA
REKLAMA
REKLAMA
REKLAMA