Veo zbija z nóg. Mówisz, co chcesz zobaczyć i dostajesz film w kilka sekund
Google na konferencji Google I/O 2024 pokazał potężne narzędzia. Takie, które jednym kliknięciem sprawią, że otrzymasz kilkusekundowy film, który przypomina nagranie z rzeczywistości.
To nie magia, a technologia. Dokładniej sztuczna inteligencja, która zasila najnowszy model Google Veo. To podobne rozwiązanie do autorskiego narzędzia OpenAI Sora, które również w praktyce pokazuje niebywałe efekty. Materiały wideo o wysokiej rozdzielczości wygenerowane za pomocą kilku słów zbijają z nóg.
Google zrobi za ciebie wideo. Wystarczy kilka słów
Jak twierdzi Google, Veo ma być najpotężniejszym modelem do generowania wideo dostępnym na ten moment. Narzędzie pozwala na tworzenie filmów w rozdzielczości 1080p o maksymalnej długości przekraczającej nawet 1 minutę. Model ma tworzyć klipy w najróżniejszych stylach – zarówno wideo, które wyglądają bardziej realistycznie, jak i takie, które przypominają gry komputerowe.
Ważnym elementem modelu jest to, że potrafi wygenerować wideo bliskie wizji artystycznej użytkownika, dokładnie analizując polecenia (prompty), uwzględniając detale, czy ton wypowiedzi. Model zna pojęcia stosowane w kinematografii – m.in. wie czym jest timelapse czy tzw. zdjęcia lotnicze, dzięki czemu użytkownik działający z Google Veo ma pełną kontrolę nad filmem. To bardzo ważne, bo model jest narzędziem stworzonym z myślą o profesjonalistach – przede wszystkim twórcach treści. Gdyby oprogramowanie zawodziło na tak podstawowym elemencie, jak komunikacja, to nie byłoby nic warte.
Zresztą, sami sprawdźcie efekty. Te są zdecydowanie najważniejsze, ale uprzedzam – wideo wygenerowane przez model potrafią zbić z nóg. Bardzo podobne efekty oferował OpenAI Sora, który zachwycił internautów pięknymi ujęciami. W moim odczuciu Veo radzi sobie również bardzo dobrze, oczywiście patrząc na udostępnione przez Google wideo.
Nieco ponad trzyminutowe wideo zawiera wiele krótkich filmów w najróżniejszych stylach. Jak Sora zachwycała realistycznymi obrazami i pięknymi ruchami kamery, to Veo radzi sobie świetnie w fantastycznej tematyce. Wystarczy spojrzeć na fragment miasta kolorowego miasta przyszłości rodem z Cyberpunka, który transformuje się jakby w scenę z gry. Potem gdy trafia do bardziej realistycznego miasta widać pomniejsze artefakty (m.in. na drzewach).
Jednak wideo z latarnią morską i klifem, żółwiem, mężczyzną na koniu oraz gór z jeziorami trudno jest odróżnić od rzeczywistości. Jest to jednocześnie zdumiewające, jak i przerażające.
Jest też nowy model do generowania obrazów
Na Google I/O 2024 firma pokazała też nową wersję modelu Imagen 3. Oprogramowanie za pomocą poleceń generuje obrazki, tyle że teraz efekty będą jeszcze lepsze. Google twierdzi, że zdjęcia tworzone z jego pomocą są bardziej szczegółowe, realistyczne i wyglądają, jakby zostały wzięte z rzeczywistości. Imagen 3 tak jak Veo lepiej rozumie polecenia. Poniżej podaje kilka przykładowych grafik.
Dodatkowo nowa wersja ma lepiej sprawdzać się w generowaniu tekstu na obrazkach, więc Google tłumaczy, że model sprawdzi się m.in. w generowaniu życzeń urodzinowych i podobnych. Jednak przynajmniej na razie Imagen 3 będzie dostępny wyłącznie dla nielicznych – artystów i opłacających abonament Vertex AI Studio. Zresztą podobnie jak Google Veo.
Więcej na temat sztucznej inteligencji przeczytasz na Spider's Web: