Bot Google'a potrafi oglądać filmy jak człowiek. Opowie ci o nich
Google ulepszył swojego bota sztucznej inteligencji Gemini. Teraz oprogramowanie może widzieć, słyszeć i zrozumieć filmy. Zupełnie jak człowiek. A na dodatek potrafi je streszczać!

Gigant przeglądarkowy oficjalnie wydał stabilne wydania swoich najnowszych modeli sztucznej inteligencji - Gemini 2.5 Pro oraz 2.5 Flash. Te są już dostępne zarówno z poziomu aplikacji mobilnej, jak i strony internetowej. Oprócz tego jednak Google wprowadza także inną nowość - analizy wideo.
Gemini potrafi oglądać, słyszeć, rozumieć i streszczać filmy. To coś niesamowitego
Chatboty bazujące na sztucznej inteligencji nie ograniczają się już wyłącznie do prostych poleceń tekstowych. Działają na zasadzie multimodalności - potrafią analizować informacje z różnych źródeł: obrazów, dźwięków, filmów jednocześnie. Analiza dźwięków i obrazów w obecnych botach to często spotykane funkcje, natomiast całych wideo - niekoniecznie. Co najwyżej oferują to najdroższe, wyspecjalizowane modele.
Tymczasem Google udostępnia to do narzędzia, do którego ma dostęp praktycznie każdy. Nowość bazuje na istniejącej funkcji podsumowywania filmów z serwisu YouTube. Funkcja analizowania wideo w Gemini działa zarówno w aplikacjach mobilnych - smartfony z Androidem, iOS, jak i bezpośrednio na komputerach w przeglądarkach internetowych.

Jak skorzystać z tej funkcji? To bardzo proste - wystarczy uruchomić chatbota i kliknąć ikonę plusika, wejść do galerii i zaznaczyć interesujące nas wideo. Podobnie tak jak to wygląda w przypadku chęci przeanalizowania zdjęcia. Plik musi zostać wysłany, a następnie użytkownik może poprosić o zbadanie wideo. Jest możliwość wykonania ogólnego streszczenia materiału z podziałem na np. najważniejsze momenty, ale też wyciągniecie poszczególnych informacji z filmu. Tak naprawdę od korzystającego zależy, to co zrobi z narzędziem.
W zależności od długości filmu, analiza Gemini może zająć trochę czasu. Ja na próbę przesłałem szybkie wideo nagrane na potrzebę analizy i poprosiłem, aby sztuczna inteligencja wykryła modele mojej myszki i klawiatury komputerowej. Oprogramowanie poradziło sobie z tym wyśmienicie i w ciągu kilku sekund otrzymałem odpowiedź.
Nie ma jednak możliwości nagrania filmu bezpośrednio z poziomu aplikacji Gemini. Jesteśmy ograniczeni do przesyłania istniejących filmów przechowywanych na urządzeniu nagranych innymi metodami - np. domyślną aplikacją aparatu telefonu. Takie podejście ma jednak wiele sensu - sztuczna inteligencja Gemini obsługuje tryb Live z obsługą udostępniania aparatu i ekranu, które są znacznie praktyczniejsze podczas analizy krótszych materiałów.
Gemini przebija pod tym względem ChataGPT
Nowa opcja analizy wideo w Gemini nie wymaga subskrypcji. Działa także na darmowych kontach użytkowników, co czyni rozwiązanie jeszcze przydatniejszym i dostępniejszym. Nie trzeba wydawać pieniędzy, aby uzyskać podstawową funkcję analizy wideo. Tymczasem największy konkurent Google’a - ChatGPT od OpenAI w wersji darmowej domyślnie nie potrafi analizować filmów.
To znaczy, potrafi, ale nie do końca - wykorzsytuje do tego pojedyncze klatki, czyli praktycznie zamienia wideo na zdjęcia i potem je analizuje. Tymczasem Gemini robi to automatycznie, w ciągu chwili. Pod tym względem sztuczna inteligencja Google’a znacząco przebija ChataGPT.
Więcej o sztucznej inteligencji przeczytasz na Spider's Web: