Takie rzeczy potrafi Sora od OpenAI. Te klipy wideo wbijają w fotel

Szczeniaczki bawiące się w śniegu, tańczący zwierzak rodem z filmów Pixara, widok z drona na zabytkowy zamek czy noworoczna parada idąca ulicami miasta. OpenAI już nie raz pokazało, że jego generatywna AI DALL-E potrafi wygenerować takie obrazy. Teraz generatywna AI Sora je wszystkie ożywia i robi konkurencję entuzjastom trzymania w ręku kamery.

Malwina Kuśmierek

16.02.2024 11:17

Takie rzeczy potrafi Sora od OpenAI. Te klipy wideo wbijają w fotel

REKLAMA

OpenAI znamy przede wszystkim z jej modeli generatywnej sztucznej inteligencji. Tekstowych GPT-3, GPT-3.5 (znanego także jako ChatGPT) i GPT-4, oraz rodziny modeli text-to-image DALL-E, które zaskakują swoimi tworami zarówno subskrybentów ChatGPT+, jak i osoby korzystające z usług Microsoftu.

Jednak gigant nie chce spocząć na laurach, dlatego też minionego wieczoru światu został zaprezentowany kolejny model sztucznej inteligencji - tym razem reprezentujący typ, którego dotychczas było na próżno szukać nie tylko u OpenAI, ale i u większości firm oferujących narzędzia do tworzenia treści z pomocą AI.

REKLAMA

Sora to nowe oczko w głowie OpenAI. Czym jest i jak działa?

Mowa tu konkretnie o modelu text-to-video (tekst na film) o nazwie Sora. Jak możemy przeczytać w dokumencie - raporcie technicznym opisującym działanie modelu AI, Sora jest modelem dyfuzji warunkowanej tekstem, co oznacza, że generuje filmy wideo poprzez stopniowe usuwanie szumu z początkowego losowego wideo, uwarunkowane podpowiedzią tekstową - promptem.

Co więcej, model AI wykorzystuje również architekturę sieci neuronowej zwaną transformer, co oznacza, że w swoim działaniu uwzględnia on różne aspekty danych wejściowych i wyjściowych, podobnie jak ma to miejsce w przypadku modeli generujących obrazy. Sora może obsługiwać różne typy danych wejściowych (czyli promptów), takie jak tekst, obrazy lub filmy. Dane wyjściowe generowane przez model - czyli po prostu wideo, mogą mieć różne rozmiary, czas trwania lub proporcje. Aczkolwiek obecnie model ograniczony jest do generowania treści w jakości full HD o długości maksymalnie minuty.

Do generowania wideo Sora używa małych fragmentów danych wejściowych i wyjściowych, które sieć neuronowa sztucznej inteligencji może "układać" na różne sposoby. To z kolei daje Sorze możliwość odtwarzania niektórych aspektów świata fizycznego i cyfrowego, takich jak spójność 3D, trwałość obiektów, prędkość i interakcje. Podobnie jak pozostałe modele AI OpenAI, Sora dokonuje tego poprzez uczenie się na podstawie wzorców i relacji w danych, które widzi.

Wraz z premierą nowego modelu AI, OpenAI zaprezentowało kilka wideo stworzonych przez Sorę. Według deklaracji, żadne z nich nie było edytowane przez firmę.

Co potrafi Sora? Te wideo wbijają w fotel

Każde z wideo wygenerowanych przez Sorę zostało opatrzone promptem wykorzystanym do wygenerowania filmu. Wideo wykorzystane przez OpenAI w promocyjnym poście na X (dawny Twitter) przedstawia Tokio wygenerowane z promptu "Piękne, zaśnieżone Tokio tętni życiem. Kamera porusza się po tętniącej życiem ulicy miasta, podążając za kilkoma osobami cieszącymi się piękną śnieżną pogodą i robiącymi zakupy na pobliskich straganach. Wspaniałe płatki sakury unoszą się na wietrze wraz z płatkami śniegu." ("Beautiful, snowy Tokyo city is bustling. The camera moves through the bustling city street, following several people enjoying the beautiful snowy weather and shopping at nearby stalls. Gorgeous sakura petals are flying through the wind along with snowflakes.").

Wybór Tokio był nieprzypadkowy - "sora" w języku japońskim znaczy "niebo".

Następne wideo Sora wygenerował z instrukcji "Miot szczeniąt rasy golden retriever bawiących się na śniegu. Ich głowy wyskakują ze śniegu, pokryte [śniegiem]."

"Fotorealistyczne zbliżenie wideo dwóch pirackich statków walczących ze sobą, gdy płyną wewnątrz filiżanki kawy" oraz "Młody mężczyzna w wieku 20 lat siedzi na kawałku chmury na niebie i czyta książkę."

Bardziej złożone instrukcje dla AI sprawiły, że Sora jest w stanie tworzyć także niezwykle realistyczne, wręcz kinowe ujęcia. Tu "Ekstremalne zbliżenie mrugającego oka 24-letniej kobiety, stojącej w Marakeszu podczas magicznej godziny, film kinowy nakręcony w 70 mm, głębia ostrości, żywe kolory, kinematografia" oraz "Kamera drona krąży wokół pięknego zabytkowego kościoła zbudowanego na skalistym występie wzdłuż wybrzeża Amalfi, widok przedstawia historyczne i wspaniałe detale architektoniczne oraz wielopoziomowe ścieżki i patia, fale rozbijają się o skały poniżej, gdy widok wychodzi na horyzont wód przybrzeżnych i pagórkowatych krajobrazów wybrzeża Amalfi we Włoszech, Kilka odległych osób spaceruje i podziwia widoki na patio z dramatycznymi widokami na ocean, ciepły blask popołudniowego słońca tworzy magiczne i romantyczne uczucie na scenie, widok jest oszałamiający uchwycony piękną fotografią."

Sora radzi sobie także doskonale z animacją. W tym przypadku wideo powstało z instrukcji: "Animacja 3D małego, okrągłego, puszystego stworzenia z dużymi, wyrazistymi oczami eksploruje tętniący życiem, zaczarowany las. Stworzenie, będące kapryśną mieszanką królika i wiewiórki, ma miękkie niebieskie futerko i krzaczasty ogon w paski. Podskakuje wzdłuż lśniącego strumienia, z szeroko otwartymi ze zdziwienia oczami. Las jest pełen magicznych elementów: kwiatów, które świecą i zmieniają kolory, drzew z liśćmi w odcieniach fioletu i srebra oraz małych pływających światełek, które przypominają świetliki. Stwór zatrzymuje się, by wejść w interakcję z grupą maleńkich, podobnych do wróżek istot tańczących wokół grzybowego pierścienia. Istota spogląda z podziwem na duże, świecące drzewo, które wydaje się być sercem lasu."

Sora wydaje się być zabójczo skutecznym narzędziem w tworzeniu deepfejków i prawdopodobnie może podważyć sens istnienia osób komercyjnie nagrywających przebitki, tzw. b-rolle. Jednak póki co wszystkie możliwości Sory to demonstracja, gdyż OpenAI nie uchyliło rąbka tajemnicy co do tego kiedy moglibyśmy spodziewać się powszechnego dostępu do jej najnowszego modelu.

REKLAMA

Więcej na temat sztucznej inteligencji:

REKLAMA

Malwina Kuśmierek

16.02.2024 11:17

Tagi: Filmy OpenAI Sztuczna inteligencja (AI)

Najnowsze

19:36

Mieli już nie rozwijać Cyberpunka 2077. A będą nowe misje, pojazdy i funkcje

Aktualizacja: 2025-07-16T19:36:14+02:00