Pokazujesz jedno zdjęcie i powstaje z niego wideo. Nie potrzeba żadnych kamer
Jak pokazują najnowsze dokonania naukowców, aby zostać vloggerem nie potrzeba umiejętności edycji wideo czy stania przed kamerą. Ani nawet kamery. Z VLOGGERem potrzeba jedynie pojedynczego zdjęcia i próbki głosu.
Zgodnie z danymi serwisu Statista, około 40 proc. internautów przynajmniej raz w tygodniu ogląda vlogi i stanowią one format popularny zarówno wśród twórców, jak i odbiorców. Byłyby one jeszcze popualrniejsze, gdyby nie plejada powodów, dla których ludzie nie nagrywają vlogów lub nie zdobywają one popularności: brak doświadczenia, brak sprzętu, brak pomysłów czy nieśmiałość.
Tu Google przychodzi ze sztuczną inteligencją, która pozwoli każdemu zostać vlogerem (albo twórcą naprawdę dobrych deepfejków). Bowiem model VLOGGER potrafi generować nagrania osób mając do dyspozycji pojedyncze zdjęcie, jako źródło danych wejściowych.
Wideo ze zdjęcia? Takie możliwości daje VLOGGER
Grupa badaczy Google Research pod przewodnictwem Enrica Corona opublikowała pracę naukową opisującą proces tworzenia wideo z pojedynczego zdjęcia i nagrania głosu. Opracowany na potrzeby publikacji multimodalny model generatywnej AI badacze nazwali VLOGGER.
W swojej pracy uczeni wykorzystali modele uczenia maszynowego zwanego modelami dyfuzji. Modele dyfuzyjne to klasa modeli generatywnej sztucznej inteligencji, które symulują proces generowania danych poprzez przekształcenie prostego rozkładu początkowego w pożądany złożony rozkład danych za pomocą sekwencji odwracalnych operacji. Modele dyfuzyjne znane są z generowania fotorealistycznych obrazów, a ich przykładami są choćby DALL-E 3, Midjourney czy Stable Diffusion.
Badacze z Google Research zastosowali podejście znane z modeli dyfuzyjnych do generowania wideo, jednocześnie trenując VLOGGER na ogromnym zbiorze danych. W efekcie AI za pomocą jednego zdjęcia i próbki głosu jest w stanie wygenerować realistycznie wyglądającą osobę, animowaną w równie realistyczny sposób.
"W przeciwieństwie do poprzednich prac, nasza metoda nie wymaga szkolenia dla każdej osoby, nie opiera się na wykrywaniu twarzy i przycinaniu, generuje pełny obraz (nie tylko twarz lub usta) i uwzględnia szerokie spektrum scenariuszy (np. widoczny tułów lub różne tożsamości podmiotów), które są krytyczne dla prawidłowej syntezy ludzi, którzy się komunikują."
Czytamy w pracy
Kluczowym czynnikiem dla sukcesu naukowców z Google Research było stworzenie ogromnego nowego zbioru danych o nazwie MENTOR, zawierającego ponad 800 000 różnych tożsamości i 2200 godzin wideo - według naukowców "dziesięć razy większy od dotychczas dostępnych zestawów". Pozwoliło to VLOGGERowi nauczyć się generować filmy przedstawiające ludzi o różnym pochodzeniu etnicznym, wieku, ubiorze, pozach i otoczeniu bez uprzedzeń, co możemy zobaczyć na przykładowych wideo opublikowanych przez Enrica Coronę.
Choć zarówno nazwa, jak i przykładowe zastosowania VLOGGERa sugerują użyteczność przy budowaniu kariery w internecie, model generatywnej AI mógłby z powodzeniem zostać wykorzystany do tworzenia deepfejków. Jednak i te nie byłyby idealne, bowiem póki co VLOGGER może tworzyć jedynie kilkusekundowe nagrania i generować statyczne tła. Ponadto mimika tworzonych postaci i schematy mowy, choć realistyczne, nie są jeszcze nie do odróżnienia od prawdziwych ludzi.
Więcej na temat sztucznej inteligencji: