GPT-5 kontra Gemini Pro. Panie Altman, proszę przeprosić inwestorów
Przetestowałam nowy GPT-5 oraz dobrze znany Gemini Pro w różnych scenariuszach. I choć GPT-5 jest dobry, to momentami cisnęło mi się na klawiaturę "Panie Altman, gdzie jest ta rewolucja?".

Wczoraj OpenAI udostępniło wszystkim użytkownikom - w tym niepłacącym za subskrypcję - model GPT-5 w formie czatbota GPT-5. Według prezesa Sama Altmana GPT-5 to "najlepszy model na świecie" w programowaniu i pisaniu tekstu. GPT-5 ma być szybszy, mądrzejszy i znacznie rzadziej popełniać błędy niż GPT-4, a jego odpowiedzi mają przypominać rozmowę z ekspertem na poziomie doktora, a nie studenta. Zniknął podział na model główny i wersję "reasoning" - system sam przełącza się na tryb wymagający głębszego myślenia. Nowością są też personalizowane "osobowości" asystenta oraz poprawione mechanizmy bezpieczeństwa, które pozwalają udzielać maksymalnie pomocnych, ale wciąż bezpiecznych odpowiedzi.
To o czym pan Sam Altman nie powiedział na scenie to fakt, że wraz z wydaniem GPT-5 z ChatGPT znikają starsze modele, wobec czego ciężko mi porównać GPT-5 z poprzednikami, co robiłam na Spider's Web zwykle gdy pojawiały się najważniejsze aktualizacje w usługach OpenAI. Dlatego tym razem starłam ze sobą GPT-5 i Gemini Pro by zobaczyć czy inżynierowie OpenAI rzeczywiście dokonali "ogromnego skoku".
Nie ma bardziej życiowego sposobu na użycie AI niż identyfikacja i pierwsza pomoc roślinom domowym
Na pierwszy ogień dałam obu czatbotom proste zadanie: wkleiłam im treść posta z Facebooka wraz z załączonym zdjęciem i spytałam, co poradziliby zatroskanej amatorce roślin domowych. Post zawierał fotografię Monstery variegaty na paliku, z jednym zżółkniętym liściem oraz opisem problemu.
"Na Facebooka ktoś wrzucił zdjęcie z takim podpisem: "Żółte liście
jakieś porady? Co robić?
Przesadzić do nowej ziemi? (jest w bigosie ale chyba przez ten żółty liść przelany został)
Wyciąć ten liść?" Co byś poradził takiej osobie?"
Nieedytowaną fotografię oraz jej opis wrzuciłam w oba czatboty. Oto jak mi odpowiedziały.




Myślę, że zarówno GPT-5 jak i Gemini Pro całkiem zręcznie poradziły sobie z postawionym im zadaniem i gdybym to ja była zatroskaną mamą tej Monstery, prawdopodobnie byłaby usatysfakcjonowana obiema odpowiedziami. Oba czatboty poprawnie zidentyfikowały problem i zasugerowały jak pomóc roślinie. Jednak w tym teście bardziej trafna wydaje się odpowiedź Gemini, którego odpowiedź była dłuższa, ale i zawierała spostrzeżenie, że to kokosowy palik może być problemem.
Jeżeli potrzebujesz pomocy z chemii, teoretycznie możesz skorzystać z obu czatbotów. Teoretycznie
W drugim teście poprosiłam czatboty, by wytłumaczyły mi reakcję wodorotlenku sodu z aluminium. Choć pytanie jest typowo szkolne, odpowiedź na nie jest całkiem ważne, bo używając wodorotlenku sodu do czyszczenia np. aluminiowych instalacji, można je uszkodzić. Jednak w tym pytaniu wyszłam z założenia, że jest to pytanie szkolne - sformułowane w prosty sposób, mające na celu wyjaśnić chemiczne zagadnienie na poziomie liceum.
"Nie rozumiem reakcji wodorotlenku sodu z aluminium. Możesz mi ją wyjaśnić?"




Gdybym miała oceniać tylko na podstawie tekstu, to trudno byłoby mi wybrać zwycięzcę - zarówno GPT-5, jak i Gemini Pro bardzo rzeczowo wytłumaczyli reakcję i nie czuję aby jeden opis był lepszy od drugiego. Niestety GPT-5 podwinęła się noga i przez błąd nie był mi w stanie poprawnie wygenerować reakcji w zapisie sumarycznym. A tłumaczenie reakcji bez poprawnego zapisu jej przebiegu jest co najmniej problemem dla czytelnika.
Copywriterzy nie wpadną w zachwyt, ale nie będą narzekać
Nie poddajemy się inaczej i idziemy dalej: czatbot w roli copywritera. Poleciłam GPT-5 i Gemini Pro napisanie treści postów na social media, które można by wykorzystać przy promocji nowej linii świeczek sojowych. Nakreśliłam produkt, jego cechy, postać, jaką ma przyjąć czatbot oraz specyfikę pisanego tekstu.
"Wyobraź sobie, że prowadzisz małą firmę produkującą świeczki sojowe. Twoja firma charakteryzuje się stosunkowo drogimi produktami hand-made, których zapachy często są nietuzinkowe i czerpią inspiracje z całej Europy. Twoim targetem są kobiety w wieku 27-40, z dużych i średnich miejscowości, klasa średnia lub wyższa.
Prowadzisz kampanię marketingową nowej linii świeczek, której zapachy nawiązują do europejskiego lata: zapach morskiej bryzy na Krecie, polskie truskawki ze śmietaną, pomarańcze z Sewilli - i inne podobne zapachy, które kojarzą się z Europą, latem i wakacjami.
Napisz dwa opisy postów reklamowych na social media: jeden na Facebooka, drugi na Instagrama. Możesz używać emoji, ale z umiarem. Na Instagramie użyj hashtagów"




Ponownie mam wrażenie, że czatboty wypadły bardzo podobnie. Oczywiście marketing w mediach społecznościowych i świeczki sojowe to nie mój obszar zainteresowania, jednakże sposób, w jaki oba czatboty wykonały zadanie właściwie nie odbiega od tego czego spodziewałabym się po poście reklamującym tego typu świeczki. Ponownie o wyższości zadecydowały niuanse - tym razem na korzyść GPT-5. W przypadku Gemini Pro niezbyt spodobały mi się hashtagi, a dodatkowo "(link w bio)" nie jest sformułowaniem używanym na Facebooku i jego użycie (w założeniu, że jesteśmy leniwi i nie redagujemy tego co generują czatboty) sugerowałoby lenistwo - kopiowanie opisów bez dostosowywania ich pod specyfikę platformy.
O ile poprzednio pisanie GPT-5 mi zaimponował, to teraz entuzjazm opadł
Przeglądanie pytań z zakresu chemii trochę wpłynęło na sposób, jaki zadałam czatbotom kolejne pytanie:
"Czy John Reese z Person of Interest to postać pozytywna czy negatywna? Odpowiedz mi w nie więcej niż 10 zdaniach"
Poprzez to zapytanie chciałam sprawdzić oba czatboty - jak radzą sobie z wiedzą z zakresu popkultury trochę mniej znanej niż Gra o Tron czy Gwiezdne Wojny, a jednocześnie sprawdzić umiejętność argumentacji i delikatnie twórczego pisania. A że oglądam obecnie Person of Interest, to padło na postać Johna Reese.



Tym razem pałeczka ponownie przeszła w stronę Gemini Pro. Jednocześnie w odpowiedzi obu czatbotów widać bardziej wyraźną niż wcześniej różnicę. Choć obie wypowiedzi brzmią trochę "szkolno-rozprawkowo", to GPT-5 z jakiegoś powodu napisał swoją odpowiedź, tak jakby stale zaczynał nową myśl, przez co wypowiedzi brakuje płynnego ciągu. To kuło w oczy najbardziej, bo poza tym sens wypowiedzi jest zachowany i Reese'a trudno jednoznacznie ocenić jako pozytywnego lub negatywnego bohatera. To, co mnie zaskoczyło to fakt, że żaden z czatbotów nie przywołał sytuacji, które mogłyby świadczyć o pozytywności lub negatywności Reese'a. Tak jakby oba założyły, że chcę odpowiedź ogólną, bez spoilerów. Z drugiej strony nie wyraziłam się jasno czy ucieszą mnie spoilery, czy nie, dlatego nie uwzględniałam ich przy ogólnej ocenie.
Ostatni test ludzkości
Ostatni test to porównanie z kategorii tych najważniejszych, najbardziej potrzebnych ludzkości zastosowań sztucznej inteligencji, która ma potencjał przewyższyć nas wszystkich.
Pytanie spod prysznica.
"Dlaczego mówimy "żyć jak pączki w maśle" skoro najlepsze pączki są na smalcu?"



Odpowiedź Gemini Pro sprawia wrażenie, jakby czatbot załapał dwa tematy: "masło" i "frazeologizmy" i na siłę próbował rozciągnąć swoją odpowiedź poprzez ciekawostki i spostrzeżenia. Przez co GPT-5 wydaje się być bardziej rzeczowy i "w punkt". Jednakże w oczy kole użycie słowa "technologia" zamiast "technika" czy "sposób". Niemniej ponownie - o wyższości decydują szczegóły.
Najnowsze dziecko OpenAI czy oczko w głowie Google'a? Ciężko powiedzieć
Pomimo że GPT-5 to największa premiera OpenAI od ponad dwóch lat - bo w końcu przeskoczyliśmy z kolejnych iteracji "czwórki" do "piątki" - to nie wydaje mi się, aby był przeskokiem, na który tyle czekaliśmy. Te i kilka innych czatów (bo gdybym wkleiła je wszystkie to siedzielibyśmy tutaj do jutra) jakościowo nie odbiegają od tego co prezentowały dotychczasowe modele OpenAI, a w zależności od zapytania GPT-5 wypada raz lepiej raz gorzej w porównaniu do Gemini Pro.
GPT-5 spokojnie można by wydać jako GPT-4.6, co prawdopodobnie nie stało się z prostego powodu: marketing i inwestorzy. Ciężko jest przez ponad dwa lata reklamować kolejne iteracje tego samego modelu, a dodatkowo na karku OpenAI siedzi grupa znudzonych inwestorów, którzy prawdopodobnie chcieli kolejnej "next big thing".
Sama darmowa dostępność - która przemawia za użyciem GPT-5 - to także zabieg mający na celu przyciągnąć do siebie klientów. Mogę się założyć, że za jakiś czas GPT-5 zostanie zamknięty za paywallem, a wtedy różnica będzie rozbijać się o bardzo specyficzne przykłady użycia oraz benefity, jakie zyskuje się wraz z każdą z subskrypcji. A w przyszłości być może także o usprawnienia i nowe funkcje.
Ale póki co, mogę z całą powiedzieć jedno: GPT-5 jest dobry. Tak samo dobry jak poprzednicy i konkurencja.
Może zainteresować cię także:
Zdjęcie główne: aileenchik / Shutterstock