DeepSeek kontra ChatGPT. Sprawdzamy, czy chiński bot jest rzeczywiście taki dobry
DeepSeek kontra ChatGPT - który jest lepszy w życiowych sytuacjach? I czy rzeczywiście chińska AI jest tak dobra, jak malują ją media? Zadałam obu czatbotom mniej lub bardziej oczywiste pytania i wiem już, skąd ten zachwyt.
Chiński startup DeepSeek udowodnił, że nawet dwa lata po premierze ChatGPT świat może zwariować na punkcie czatbotów. Co prawda zachwyt modelami generatywnej sztucznej inteligencji DeepSeek ma podłoże bardziej biznesowe - trening modelu DeepSeek R1 kosztował Chiny ułamek tego, co OpenAI wydało na trening GPT-4. A mimo to DeepSeek R1 w wydajności działania dorównuje - a niekiedy nawet przewyższa - zarówno czatboty OpenAI, jak i Google czy Mety.
Jednak czy rzeczywiście jest się czym zachwycać i czy chińska AI pozbawi pracy amerykańską AI? Postawiłam obu botom bardzo życiowe pytanie.
DeepSeek kontra ChatGPT. Te kilka zadań pokazało mi, jak cienka jest granica pomiędzy obojgiem czatbotów
W teście porównałam dwa czatboty - ChatGPT OpenAI oraz DeepSeek R1 od DeepSeek. ChatGPT, którego użyłam, był darmowy, co oznacza, że korzystałam z modelu GPT-4o, który zmienia się automatycznie na GPT-3.5 (podstawowy model ChatGPT), gdy usługi OpenAI doświadczają dużego ruchu lub użytkownik wykorzysta limit wiadomości. Z modelu GPT-4o bez ograniczeń mogą korzystać subskrybenci ChatGPT Plus.
Z kolei DeepSeek R1 to najnowszy model generatywnej sztucznej inteligencji opracowany przez DeepSeek, który odpowiada także za rozwój czatbota o tej samej nazwie. Dostęp do DeepSeek R1 jest darmowy - wystarczy się zalogować na platformie i przy wysyłaniu wiadomości zaznaczyć opcję "DeepThink (R1)". Według deklaracji startupu, w większości testów porównawczych (benchmarków) DeepSeek R1 wypada równie dobrze lub lepiej w porównaniu do modelu o1 OpenAI.
Wyjaśnianie przypadków w języku polskim
Pierwsze zadanie, które zleciłam obu chatbotom, polegało na wyjaśnieniu przypadków w języku polskim. Miało ono na celu sprawdzenie kilku umiejętności: znajomości języka angielskiego i polskiego, gramatyki obu języków oraz zdolności do klarownego wyjaśniania złożonych zagadnień. Poprosiłam czatboty o opisowe podejście do problemu - zwykle pytania o wyjaśnienia odmiany przez przypadki kończą się długą "na kilka ekranów" listą przykładów i są po prostu łatwym sposobem obejścia problemu.
Prompt brzmiał: "Wyjaśnij w języku angielskim przypadki w języku polskim. Nie rób z tego długiej listy, omawiając każdy przypadek z osobna, a zamiast tego skup się na opisowym podejściu do deklinacji. Wyjaśnij unikalne przykłady „kakao” i „drzwi”.
Odpowiedź DeepSeek:
Odpowiedź ChatGPT:
W oczy rzuca się długość odpowiedzi obu czatbotów. ChatGPT dał mi zwięzły zarys tego aspektu gramatycznego, podczas gdy DeepSeek R1 wyszedł z własną inicjatywą wyjaśnienia na podstawie przykładów. I to nie tylko wspomnianego kakao oraz drzwi. Obie odpowiedzi były spójne językowo i logiczne, lecz gdybym uczyła się języka polskiego, prawdopodobnie to odpowiedź DeepSeek R1 znalazłaby się w moim zeszycie.
Wiedza z życia codziennego
Gdy ChatGPT pod koniec 2022 roku zaczął podbijać internet, czatbotom wróżyło się wyparcie wyszukiwarek Google jako źródła odpowiedzi na różnego rodzaju pytania i problemy. To zainspirowało mnie do kolejnego pytania o kwestię bardzo przydatną w codziennym życiu, a którą tłumaczy chemia - duet octu i sody oczyszczonej.
"Ocet i soda oczyszczona - czy to dobre połączenie? Dlaczego tak, a dlaczego nie? Do czego mogę wspólnie wykorzystać ocet i sodę oczyszczoną?"
Odpowiedź DeepSeek:
Odpowiedź ChatGPT:
Oba chatboty udzieliły mi najbardziej pożądanej informacji - tak, ocet i soda oczyszczona to dobre połączenie, ale w bardzo specyficznym przypadku użycia. W odpowiedzi DeepSeek spodobało mi się, że czatbot zawarł reakcję chemiczną, proporcje, w jakich należy zmieszać środki oraz ostrzeżenie przed mieszaniem z wybielaczem. Z kolei ChatGPT zdobył punkt za liczne przykłady wykorzystania obu substancji. Jednak gdybym była zwykłym Kowalskim szukającym odpowiedzi na pytanie o ocet i sodę oczyszczoną, prawdopodobnie uznałabym odpowiedź DeepSeek za bardziej przydatną.
Literatura Młodej Polski
W kolejnym zadaniu zwróciłam się do czatbotów o napisanie tekstu, którego można oczekiwać od współczesnego maturzysty. Znana wszystkim lektura, ograniczenie do siedmiu zdań, konkretna postać mająca własną symbolikę.
"Co symbolizuje Chochoł w "Weselu"? Odpowiedz w maksymalnie siedmiu zdaniach"
Odpowiedź DeepSeek:
Odpowiedź ChatGPT:
Oba czatboty wypadły w tym zadaniu bardzo podobnie, aczkolwiek DeepSeek wygenerował bardziej zwięzłą odpowiedź.
Długość krawędzi prostopadłościanu i dziedzina funkcji
Pozostając w tematyce maturalnej, grzechem byłoby nie sprawdzić, jak oba czatboty radzą sobie z matematyką. Zadanie, które im pokazałam, pochodzi z arkusza matury próbnej z grudnia 2024 r. Aby czatbot miał takie same szanse jak maturzysta, do zapytania dołączyłam rzut prostopadłościanu zawarty w treści zadania.
Treść zadania, które zleciłam czatbotom:
Obliczenia powinny wykazać:
- wzór P(x) = 96x - 26x2
- D = (0,3)
- x = 24/13
Odpowiedź DeepSeek:
Odpowiedź ChatGPT:
Choć oba czatboty doszły do poprawnego wyniku, to w tym przypadku ChatGPT pokazał to lepiej. Przede wszystkim dlatego, że całość odpowiedzi wraz z wyjaśnieniami po kolei została zawarta w wiadomości. Z kolei większość obliczeń DeepSeek została zawarta w "chain of thought" - tekście generowanym przed właściwą odpowiedzią, gdzie użytkownik może podejrzeć sposób, w jaki AI "myśli" o zapytaniu. "Chain of thought" był generowany przez DeepSeek przy każdym poprzednim (i kolejnym) zapytaniu, jednak tylko w tym przypadku mam do czynienia z sytuacją, gdzie to właśnie łańcuch myśli satysfakcjonuje mnie bardziej niż gotowa odpowiedź.
Fragment "łańcucha myśli" DeepSeek:
Przepis na kopytka
Kopytka, jakie są, wszyscy widzą, a internet pełen jest przepisów na kopytka. Dlatego poprosiłam oba czatboty o napisanie przepisu na kopytka, z uwzględnieniem proporcji składników na 6 porcji.
Odpowiedź DeepSeek:
Odpowiedź ChatGPT:
Obie odpowiedzi miały różne problemy. Instrukcje podane w obu przepisach są poprawne - posiadając dobre proporcje składników i kierując się instrukcjami któregokolwiek z przepisów, nawet gastronomiczny nowicjusz przygotowałby dobre kopytka. Jednak DeepSeek przestrzelił z proporcjami składników, podając ilość mąki na 1,2 kg obranych ziemniaków, co sprawiłoby, że DeepSeekowe kopytka wyszłyby bardzo twarde. Oba chatboty nie uwzględniły, czy podają wagę ziemniaków przed czy po obraniu. W przypadku proporcji ziemniaków do mąki ChatGPT zaproponowałby ilość wystarczającą na grubo ponad 6 porcji.
W obu zabrakło mi także proporcji wody i soli do gotowania kopytek oraz wspomnienia o przygotowaniu dodatkowej mąki do podsypywania klusek. Ponadto uderzyła mnie pierwsza większa gafa językowa DeepSeek: "wrzucaj partiami do osolonego, wrzącego wody".
Pisanie opisu na Instagram
Na koniec zdecydowałam się dać obu chatbotom bardzo lekkie i przyjemne zadanie - opis zdjęcia publikowanego w serwisie Instagram. Moja instrukcja zawiera stosunkowo dużo szczegółów, jednocześnie dając czatbotom pole do popisu.
"Wyobraź sobie, że jesteś lifestylową influencerką i spędzasz wakacje na greckiej wyspie Santorini. Publikujesz na Instagramie zdjęcie przedstawiające lokalną architekturę na tle Morza Egejskiego. Twoje zadanie: napisz opis publikowanego zdjęcia. Opis musi zawierać trzy zdania opisu twoich odczuć i emocji względem wyspy i spędzanego na niej czasu. Użyj emoji związanych z wakacjami. Na końcu opisu zawrzyj osiem dowolnych hashtagów w języku polskim i angielskim"
Odpowiedź DeepSeek:
Odpowiedź ChatGPT:
Gdyby strzeliło mi do głowy powierzenie czatbotowi opisania własnych emocji, bo nie potrafię wykrzesać z siebie kreatywności na trzy zdania, prawdopodobnie skierowałabym się ku ChatGPT. Jego opis brzmi bardziej naturalnie, emoji mają trochę więcej sensu - o ile emoji kwiatu nawiązuje do zapachu oleandrów, to kobieta uprawiająca jogę i znak Wenus nie stanowią moich pierwszych skojarzeń z błogim spokojem podczas wakacji w Grecji. Do tego hashtag #PodróżujLokalnie w kontekście wakacji w Grecji jest co najmniej dziwny.
ChatGPT czy DeepSeek? Nie ma jednoznacznej odpowiedzi, ale granica jest bardzo cienka
Porównania, które przeprowadziłam, to jedynie wybiórcze przykłady, które w żaden sposób nie odzwierciedlają, który czatbot jest lepszy. Tego mogą dokonać jedynie zaawansowane testy porównawcze - benchmarki, których ja nie jestem w stanie przeprowadzić, nawet gdybym zaangażowała komputery i inne urządzenia wszystkich sąsiadów z klatki.
Jednocześnie zadania, które powierzyłam obu czatbotom, są niemalże "wyjęte z życia" i dobrze pokazują, że DeepSeek i ChatGPT mogą konkurować ze sobą w naprawdę wielu kategoriach. Szala stale przechylała się na jedną ze stron - raz DeepSeek dawał mi odpowiedź, z której byłam bardziej zadowolona, raz był to ChatGPT. Jednak ani razu nie otrzymałam obiektywnie złej odpowiedzi.
Biorąc pod uwagę, że DeepSeek w darmowej (bo innej nie ma) wersji nie ma żadnych ograniczeń, dla przeciętnego użytkownika w ogólnym rozrachunku wybór jest jasny. Jednak biorąc pod uwagę cenzurę (która bardziej może zaboleć ciekawskich niż typowego użytkownika generującego treść życzeń dla babci) oraz fakt, że dane przesyłane do DeepSeek lądują na serwerach znajdujących się w Chinach, wiele osób mimo to może pozostać przy ChatGPT lub innym amerykańskim chatbocie.
Więcej na temat DeepSeek:
Zdjęcie główne: Urbano Creativo / Shutterstock