Jak działa ChatGPT-4 i czy jest warty swojej ceny? Sprawdziłam to
Przez długi czas zapierałam się rękami i nogami by nie kupować subskrypcji ChatGPT Plus. Jednak decyzja o ukryciu GPT-4 za paywallem w połączeniu z ciekawością wzięły górę. Zakupiłam subskrypcję i przetestowałam najnowszy model sztucznej inteligencji. Czy było warto?
GPT-4 to nowo zaprezentowany model językowy sztucznej inteligencji stworzony przez OpenAI. Biorąc pod uwagę dotychczasowe możliwości modelu GPT-3 oraz furorę, jaką wzbudził ChatGPT, przed amerykańskim przedsiębiorstwem stał nie lada orzech do zgryzienia.
Po pierwsze, musiało sprostać oczekiwaniom tłumu oczarowanego przez poprzednie modele, czyli zbliżyć możliwości generowania tekstu do ludzkich. Po drugie, OpenAI zostało zmuszone do podjęcia rękawicy rzuconej przez osoby, które namiętnie wykorzystywały luki w działaniu SI, przede wszystkim poprzez różnego rodzaju skrypty. Następnie zderzenie tego z realiami, w których modele językowe są używane przez osoby z całego świata - a więc nie tylko po angielsku. No i finalnie: dostrojenie modelu tak, aby zredukować zjawisko halucynacji i wytwarzania błędów rzeczowych.
Kilka słów o obecnych modelach GPT
Zacznijmy od wyjaśnienia pewnej kwestii. GPT-4 nie jest kolejną wersją ChatGPT. Jest to duży multimodalny model sztucznej inteligencji. Multimodalny, gdyż akceptuje nie tylko komendy tekstowe, ale i obrazy, na ich podstawie generując odpowiedź tekstową. GPT-4 jest następcą modelu GPT-3 - trzeciej generacji dużego modelu językowego od OpenAI. Model ten jest znany z umiejętności generowania tekstu w języku naturalnym, który często jest trudny do odróżnienia od tekstów pisanych przez ludzi. GPT-3 leży w sercu wielu aplikacji, chatbotów czy usług opartych o generowanie tekstu lub poprawianie go. W gruncie rzeczy GPT-4 ma robić jeszcze lepiej to, co dotychczas robił GPT-3.
Z kolei w sercu ChatGPT leży model GPT-3.5, usprawniony model GPT-3, zoptymalizowany pod kątem konwersacji i z dodatkowymi zabezpieczeniami przeciwdziałającymi tworzeniu szkodliwych treści. GPT-4 może w przyszłości zostać na stałe zaimplementowany w nowszych wersjach ChatGPT, jednak obecnie modele nie są ze sobą powiązane - poza sposobem korzystania z nich.
Co dostałam za 110zł?
Zrozumienie tej kwestii jest niezwykle ważne, gdyż OpenAI zdecydowało się na dość... ciekawy model dystrybucji. Obecnie model GPT-4 dostępny jest jedynie w formie chatu dla subskrybentów ChatGPT Plus. Czyli z GPT-4 rozmawia się w identyczny co z ChatGPT, a sama możliwość kosztuje 110zł. Pomimo, że OpenAI chwali się multimodalnością swojej SI, nie ma opcji, aby załadować do niej zdjęcia. A, i jedna kwestia o której OpenAI nie powie nikomu aż do momentu finalizacji płatności: GPT-4 obecnie jest objęty limitem 100 wiadomości / 4 godziny.
W ramach subskrypcji Plus mogę rozmawiać nie tylko z GPT-4, ale także z dwiema wersjami GPT-3.5 (modelu używanego przez ChatGPT) dla subskrybentów Plusa - starszej i obecnej. Jak pokazuje OpenAI na pięciostopniowej skali, GPT-4 jest wolniejszy, za to jest ogromnym krokiem naprzód pod względem jakości generowanych treści. W tym teście porównam darmową, ogólnodostępną wersję ChatGPT (czyli modelu 3.5) do płatnego GPT-4.
Na początek: matura
Możliwości GPT-4 zostały przetestowane na szerokiej gamie egzaminów obowiązujących w Stanach Zjednoczonych, tak zawodowych, jak i przedmiotowych. Ze względu na różnice w systemie szkolnictwa trudno je przyrównać do tych w polskim systemie. Jednakże moim ulubionym testem, pod który poddaje każdy model SI są zadania maturalne, stanowiące nie tylko zwieńczenie 12 lat edukacji, ale i podstawę nauki w szkole średniej.
Poddałam GPT-4 i ChatGPT trzy zadania: z języka polskiego, historii i chemii.
W teście z języka polskiego obu modelom zadałam to samo pytanie z puli zagadnień matury ustnej. Odpowiedź obu modeli wypadła podobnie, jednak GPT-4 podał więcej szczegółów i wypunktował różne rodzaje konfliktu obecne w powieści. Jeżeli wprawne oko zarzuci mi ucięcie odpowiedzi, to akurat jest wina GPT-4. Model zwyczajnie zawiesił się i przestał generować dalej treść.
Kolejne pytanie dotyczyło historii i zostało wzięte z zeszłorocznego arkusza maturalnego. Tu, bardziej niż w przypadku testu z języka polskiego widać rozjazd pomiędzy modelami.
ChatGPT odpowiada ogólnikami, nie wymieniając z nazwy żadnego wydarzenia ani państwa, powielając jedynie informacje zawarte w pytaniu. Podczas gdy GPT-4 "wyłapuje" kontekst - poddanie się ekspansji hitlerowskich Niemiec i faszystowskich Włoch, które poskutkowało utworzeniem kolaboracyjnego rządu w Vichy.
Chemia za to wypadła... ciekawie.
Według klucza odpowiedzi prawidłową odpowiedzią na pytanie jest Na2O2 + 2H2O → H2O2 + 2NaOH, podana przez ChatGPT.
Samsung Galaxy S21 Ultra i iPhone 13 Pro
Pytania "X czy Y" są ciekawą kwestią, gdyż OpenAI dostroiło swoje modele tak, by nie były w stanie dawać osądu i faworyzować jedną opcję ponad drugą. Biorąc pod uwagę fakt, że modele z serii GPT trenowane są na treściach z internetu, a opinii na temat popularnych smartfonów nie brakuje, pytanie "Który smartfon jest lepszy: iPhone 13 Pro czy Samsung Galaxy S21 Ultra? Dlaczego?" zawsze przyniesie ciekawe efekty.
W tym przypadku GPT-4 nie zapiera się w charakterystyczny sposób "Jestem sztuczną inteligencją, nie mogę mieć opinii i własnego zdania", a zamiast tego porównuje smartfony pod każdym kluczowym dla porównań aspektem. GPT-4 napisał więcej i wymienił więcej szczegółów niż model ChatGPT.
Żarty o zmarłym wujku
OpenAI dość mocno dba, aby jej modele nie generowały treści niewłaściwych, społecznie szkodliwych. Żarty o osobach zmarłych również przychodzą SI z trudnością - nawet, jeżeli dana osoba nie istnieje. Jednak tym razem model został dostrojony w dość ciekawy sposób, bo GPT-4 nie odmawia mi napisania żartu o zmarłej osobie. Inna kwestia, że żart nie jest jakkolwiek śmieszny - ale przynajmniej SI nie zaparła się wygenerowania go.
Polska gramatyka
Ze wszystkich testów, które przeszedł pod moją ręką GPT-4, prośba o wytłumaczenie przypadków w języku polskim najlepiej obrazuje przepaść (a co za tym idzie - postęp) pomiędzy modelami GPT-3 i GPT-3.5 a modelem GPT-4.
W tym teście zapytałam oba modele SI, aby w języku angielskim wytłumaczyły mi przypadki w języku polskim i okrasiły je trzema przykładami wykorzystania. ChatGPT, mówiąc delikatnie, poległ. Tłumaczenia są ogólne, przykłady po części błędne i nie wykorzystują w pełni potencjału, jaki mają zaproponowane słowa. GPT-4 nie tylko poprawnie wytłumaczył (i przetłumaczył) każdy z przypadków, ale też podał po przykładzie dla każdego słowa w każdym przypadku - czyli w sumie 21 przykładów oraz zastrzeżenie dla rzeczownika "drzwi" (aczkolwiek pominął miłość).
Czy GPT-4 był warty swojej ceny?
W styczniu bieżącego roku Sam Altman, szef OpenAI mówił, że ludzie oczekują od GPT-4 znacznie więcej niż firma jest w stanie im zaoferować.
"Ludzie błagają o rozczarowanie i będą rozczarowani. Ten hype [wokół GPT-4] jest po prostu jak… Nie mamy rzeczywistego AGI [silnej sztucznej inteligencji], a tego właśnie się od nas oczekuje."
Słowa Altmana idealnie oddają to, co myślę o GPT-4. Oczekiwanie na GPT-4 było pełne entuzjazmu i przebijanie się w pomysłach na to, jak bardzo GPT-4 będzie rewolucyjny. W obecnej formie - dostępnej w ramach subskrypcji ChatGPT Plus, GPT-4 nie jest tą rewolucją.
Spędzając kilka godzin na rozmowie z nie tylko GPT-4, ale także pozostałymi modelami (GPT-3.5 Plus default, GPT-3.5 legacy i darmowym ChatGPT) przekonałam się, że GPT-4 jest tym skokiem, którego tak bardzo potrzebowaliśmy po przemieleniu możliwości GPT-3 i ChatGPT na wszystkie sposoby. GPT-4 jest bardziej pojętny, rozumie lepiej, tłumaczy lepiej. OpenAI do pewnego stopnia uwolniło go z cenzorskiego dołka, dzięki czemu nie odrzuci on z góry całego zapytania, bo jedno słowo źle się kojarzy lub dlatego, że temat jako taki jest kontrowersyjny. No i oczywiście kwestia ważna dla nas, Polaków: rozumienie języka polskiego. To też się poprawiło. Jednak to są plasterki na mnóstwo siniaków i zadrapań, a nie rewolucja warta wydania lekką ręką 110 złotych.
GPT-4 na pewno jest warty swojej ceny dla osób, które chcą oprzeć na nim swoją aplikację - chatbota, narzędzia do sprawdzania pisowni, czy aplikację do nauki języków. Jest warty 90 złotych + VAT dla każdego, kto na co dzień pracuje z tekstem i posiadanie językowego modelu sztucznej inteligencji o takim potencjale zwróci mu się z nadwyżką. Jednak dla laika, dla którego ChatGPT był rewolucją, GPT-4 jest przeskokiem niewartym swojej obecnej ceny.