Oto odpowiedź Google na GPT-4. Gemini jako pierwszy przewyższył ludzkich ekspertów

To jeszcze nie koniec roku dla sztucznej inteligencji i na pewno nie dla Google. Koncern właśnie zaprezentował, nie jeden, a aż cztery modele AI. Według zapewnień giganta seria Gemini 1.0 przewyższa wszystkie dotychczas zaprojektowane przez Google modele sztucznej inteligencji i - zgodnie z wynikami testów - rzuca na kolana GPT-4.

Malwina Kuśmierek

06.12.2023 16:00

Oto odpowiedź Google na GPT-4. Gemini jako pierwszy przewyższył ludzkich ekspertów

REKLAMA

Choć jeszcze dwa dni temu świat technologii żył informacją, iż premiera głośno zapowiadanego dużego modelu językowego sztucznej inteligencji od Google - Gemini - została przesunięta przez samego Sundara Pichaia. Jednakże w rzeczywistości jest zupełnie inaczej. Bowiem właśnie dzisiaj dyrektor generalny Google przygotował mikołajkową niespodziankę w postaci Gemini 1.0, którego sam Pichai nazywa "najbardziej wydajnym i pojętnym modelem, jaki kiedykolwiek zbudowało Google".

REKLAMA

Oto Google Gemini - i jego liczne wcielenia

Jak przekazało mediom Google, Gemini jest "wynikiem współpracy na dużą skalę zespołów z całego Google", w tym Google Research. Model został zbudowany od podstaw tak, aby był multimodalny, co oznacza, że tak, jak jego bezpośredni konkurent, GPT-4 - może obsługiwać i łączyć różne rodzaje informacji i danych, w tym tekst, kod programistyczny, dźwięk, obraz i wideo.

Według zapewnień koncernu Gemini jest także najbardziej "elastycznym" modelem AI, jaki zaprojektowało Google, a to ze względu na różne warianty oprogramowania.

Tak więc Gemini 1.0 dostępny będzie w trzech różnych rozmiarach:

Gemini Ultra - największy i najbardziej pojętny wariant, zaprojektowany z myślą o dużych centrach danych
Gemini Pro - najlepszy model do "skalowania w szerokim zakresie zadań"
Gemini Nano - model do wykonywania zadań bezpośrednio na urządzeniu

Google nie podało szczegółów dotyczących treningu ani rozmiaru wariantu Ultra i Pro, jednakże w raporcie technicznym modelu możemy przeczytać, że koncern przygotował wariant Nano w dwóch wersjach: Nano-1 z 1,8 miliarda parametrów oraz Nano-2 z 3,25 miliarda parametrów.

Gemini ma być konkurencyjny przede wszystkim swoją pojętnością. Jak informuje Google, wydajność Gemini 1.0 Ultra przewyższa obecne najlepsze wyniki w 30 z 32 powszechnie stosowanych akademickich testów porównawczych wykorzystywanych w badaniach i rozwoju dużych modeli językowych.

Ponadto z wynikiem 90 proc., Gemini 1.0 Ultra jest pierwszym w historii modelem, który "przewyższył ludzkich ekspertów" w MMLU (massive multitask language understanding) - teście, który wykorzystuje kombinację 57 przedmiotów (w tym matematyki, fizyki, historii, prawa, medycyny i etyki) do sprawdzenia zarówno wiedzy o świecie, jak i umiejętności rozwiązywania problemów. Dla porównania, Gemini 1.0 Pro uzyskał w tym samym teście 79 proc., GPT-4 87,3 proc., GPT-3.5 (czyli ChatGPT) 70 proc., a zaprezentowany w maju bieżącego roku model PaLM 2 78,4 proc.

Natomiast w benchmarku MMMU (Massive Multi-discipline Multimodal Understanding) stosowanym do analizy możliwości multimodalnej AI pod względem percepcji, wiedzy i rozumowania Gemini 1.0 Ultra przewyższył GPT-4V (GPT-4 Vision, wersję GPT-4, która potrafi przyjmować obraz jako prompty), osiągając wynik 3 proc. lepszy niż model OpenAI.

W raporcie technicznym przygotowanym przez Google możemy zobaczyć liczne przykłady wykorzystania multimodalności modelu Gemini 1.0. W jednym z przykładów inżynierowie Google "pokazują" modelowi zdjęcie zawierające dwie kulki włóczki o różnych kolorach z pytaniem "Daj mi dwa pomysły na to, co mogę z nich zrobić". W odpowiedzi na to model identyfikuje przedmioty na obrazie oraz generuje propozycje rękodzieła - wraz z obrazami - kota, psa, awokado oraz królika.

Innym przykładem jest zapis rozmowy, w którym inżynierowie "podali" Gemini zdjęcie warzyw i jajek z pytaniem "Jaka jest pierwsza czynność, jaką powinienem wykonać, by zrobić omlet z warzywami z tych składników". Co ważniejsze, w tym przykładzie inżynierowie jako prompt podali nie tekst, lecz nagranie audio pytania, a następnie poprzez zdjęcia i nagrania audio kontynuowali "gotowanie" z Gemini.

Czwartym wcieleniem Gemini jest AlphaCode 2

Gemini to niejedyny model, jaki zaprezentowało dziś Google, bowiem drugim z nich jest AlphaCode 2. AlphaCode 2 jest wyspecjalizowaną wersją Gemini zorientowaną na tworzenie kodu programistycznego i bezpośrednim następcą AlphaCode zaprezentowanego dwa lata temu.

Podczas oceny na tej samej platformie co oryginalny AlphaCode, AlphaCode 2 wykazuje ogromną poprawę, rozwiązując prawie dwa razy więcej problemów i szacujemy, że radzi sobie lepiej niż 85 proc. uczestników konkursów [programistycznych] - w porównaniu z prawie 50 proc. w przypadku AlphaCode. Gdy programiści współpracują z AlphaCode 2, definiując pewne właściwości dla przykładowych próbek kodu, które mają być przestrzegane [przez model AI podczas generowania kodu], osiąga on jeszcze lepsze wyniki.

Gdzie znaleźć Gemini?

Jak poinformowało Google, od dzisiaj Gemini znajdziemy w Bardzie. Popularny chatbot będzie używał dostrojonej wersji modelu Gemini 1.0 Pro. Jednakże "zaktualizowany" Bard będzie dostępny jedynie w języku angielskim w "170 krajach i terytoriach na świecie", lecz Google ma plan "ekspansji na nowe lokalizacje i języki" w "najbliższej przyszłości".

Z kolei Gemini Nano znajdziemy wkrótce w telefonach Google Pixel. Jak informuje koncern, Pixel 8 Pro jest pierwszym smartfonem zaprojektowanym do obsługi Gemini Nano, a pierwszą aplikacją z integracją z Gemini na Pixelach będzie Whatsapp.

W najbliższych miesiącach Gemini trafi także do pozostałych usług Google, w tym wyszukiwarki, Google Ads, Chrome i Duet AI.

Programiści zainteresowani Gemini Pro będą mogli skorzystać z Gemini API w Google AI Studio lub Google Cloud Vertex AI, natomiast Gemini Ultra zostanie wkrótce udostępniony "wybranym klientom" w celu przeprowadzenia "wczesnych eksperymentów" i uzyskania "opinii przed wprowadzeniem Gemini Ultra dla deweloperów i klientów korporacyjnych" na początku przyszłego roku.

Może zainteresować cię także:

REKLAMA

Zdjęcie główne: sdx15 / Shutterstock

REKLAMA

Malwina Kuśmierek

06.12.2023 16:00

Tagi: Google Sztuczna inteligencja (AI)

Najnowsze

9:00

Ranking najlepszych odkurzaczy pionowych z funkcją mycia - TOP 10 [ranking 2026]

Aktualizacja: 2025-11-08T09:00:00+01:00