REKLAMA

Z wyszukiwarką Google będziesz gadał jak z człowiekiem. To zmieni wszystko

Wczorajsza demonstracja modelu GPT-4o od OpenAI i Microsoftu znowu zapewniła tym firmom technologiczną przewagę, która właściwie to trwała jeden dzień. Model Gemini od Google’a i wykorzystujące go usługi rozwija się w niezwykłym tempie. Jego logiczne rozumowanie coraz bardziej przypomina to ludzkie.

Google Gemini Astra
REKLAMA

Gemini 1.5 Flash to pierwsza z zapowiedzianych przed chwilą na konferencji I/O 2024 nowości. To model SI który jest, jak nazwa sugeruje, znacznie lżejszy od Gemini 1.5 Pro, ale podobnie jak jego większy brat obsługuje polecenia o długości nawet miliona tokenów (lub 2 mln przez deweloperskie API na Google Cloud).

Ów model ma duże możliwości wnioskowania multimodalnego na podstawie ogromnych ilości informacji i zapewnia imponującą jakość jak na swój rozmiar. 1.5 Flash doskonale sprawdzać się ma w podsumowaniach, aplikacjach do czatowania, podpisach do obrazów i filmów, wyodrębnianiu danych z długich dokumentów i tabel i nie tylko. Został on przeszkolony za pośrednictwem modelu 1.5 Pro przez proces zwany destylacją, podczas którego najważniejsza wiedza i umiejętności z większego modelu są przenoszone do mniejszego, bardziej wydajnego.

REKLAMA

Czytaj też:

Gemini 1.5 Pro staje się jeszcze sprawniejszy. A Gemini Nano postrzega świat coraz większą liczbą zmysłów

Google Gemini 1.5 Pro kontra konkurencja - liczba obsługiwanych tokenów

Model Pro również został istotnie ulepszony. Oprócz rozszerzenia okna kontekstowego do dwóch milionów tokenów, ulepszono generowanie kodu, logiczne rozumowanie i planowanie, wielowątkową konwersację oraz zrozumienie dźwięku i obrazu poprzez ulepszenia danych i algorytmów. Najnowsza wersja 1.5 Pro osiąga znaczne postępy w publicznych testach porównawczych w kilku dziedzinach, takich jak rozumowanie i kodowanie, a także najnowocześniejszą wydajność w wielu testach rozumienia obrazów i wideo, w tym MMMU, AI2D, MathVista, ChartQA, DocVQA, InfographicVQA i EgoSchema.

Wersja 1.5 Pro, jak zapewnia Google, może teraz wykonywać coraz bardziej złożone i dopracowane instrukcje, w tym odgrywanie ról i zachowywanie danych stylów wypowiedzi. Google dodał też obsługę dźwięku w API Gemini i Google AI Studio, dzięki czemu wersja 1.5 Pro może teraz analizować obraz i dźwięk w przypadku filmów przesyłanych w Google AI Studio.

REKLAMA

Google doda też możliwość przesyłania plików za pośrednictwem Dysku Google lub bezpośrednio z urządzenia, bezpośrednio do Gemini Advanced. Będzie można szybko uzyskać odpowiedzi i spostrzeżenia dotyczące dokumentów, na przykład sprawdzając szczegóły dotyczące zwierząt w umowie najmu mieszkania lub porównując kluczowe argumenty z wielu długich artykułów naukowych. Wkrótce Gemini Advanced będzie działać jako analityk danych, odkrywając spostrzeżenia i tworząc niestandardowe wizualizacje i wykresy na podstawie przesłanych plików danych, takich jak arkusze kalkulacyjne. Zwiększona też zostanie integracja z usługami Google, w tym z YouTube’em czy z Mapami.

Ulepszeń doczekał się też działający offline Gemini Nano, który obecny jest chociażby w nowych urządzeniach Pixel. Co niezwykle istotne i użyteczne, zyskał obsługę multimodalności, co oznacza, że potrafi już nie tylko przetwarzać tekst, ale też obraz, dźwięk i mowę.

REKLAMA

Projekt Astra, czyli piękna wizja przyszłości. Trudno w nią uwierzyć, patrząc po niespełnionych obietnicach w związku z Asystentem Google

Demonstrację modeli SI podczas I/O zakończył pokaz asystenta przyszłej generacji, którą Google nazywa póki co Project Astra. Pokaz bardzo przypominał ten niedawny, związany z GPT-4o. Tyle że Astra jest jeszcze w powijakach. To asystent głosowy, który potrafi na żywo rejestrować obraz, dźwięk i inne sygnały i w czasie rzeczywistym na nie reagować. Taki Asystent Google nowej generacji, tyle że do obsługi i zrozumienia poleceń użytkownika używa Dużego Modelu Językowego i systemów SI do rozpoznawania mowy i wideo. W efekcie wywiera iluzję jakby to była prawdziwie inteligena istota - świadomy komputer, rodem z filmów science-fiction.

REKLAMA

Project Astra ma za sprawą swojej niezwykle sprawnej (w kontekście czasu przetwarzania danych i skuteczności) metodzie przetwarzania informacji doskonale rozumieć kontekst sytuacji, w jakiej się znajduje, a co za tym idzie również kontekst pytania i polecenia. Wygląda to bardzo imponująco, ale zapewne niektórzy nadal pamiętają pokaz Asystenta Google na jednej ze wcześniejszych I/O, który sam w imieniu użytkownika rezerwował wizytę u fryzjera. Na razie Astra to raczej koncepcja niż produkt.

Na szczęście nie trzeba wzdychać do Astry, by być pod wrażeniem. Microsoftowi i OpenAI wyrósł sensowny rywal. To Google i jego Gemini. Nie możemy się doczekać możliwości jego przetestowania. Zwłaszcza że pozwoli już niebawem tworzyć Gems - czyli modele trenowane na konkretnym, wskazanym przez użytkownika zbiorze danych, co powinno ukrócić halucynacje. Ciekawe tylko czy język polski nie będzie jakimś problemem…

REKLAMA
Maciej Gajewski
Redaktor
REKLAMA
REKLAMA
REKLAMA
REKLAMA