Absolutnie niesamowite - z GPT-4o pogadasz jak z człowiekiem. Przyszłość z filmu Ona już tu jest (wideo)
Jakiś czas temu narzekałam na całkowity brak innowacji w sztucznej inteligencji oferowanej konsumentom, jednak wieczorna prezentacja OpenAI napełniła mnie entuzjazmem. GPT-4o po roku stagnacji budzi generatywną AI, a dodatkowo daje nadzieję, że jeszcze w tym roku zobaczymy asystenta głosowego, który nie jest głupi.
Minionej nocy OpenAI zrzuciło na świat technologii prawdziwą bombę, prezentując GPT-4o - najnowszy "omni" wariant modelu GPT-4, który jest nie tylko najbardziej pojętnym modelem przetwarzającym tekst (lub jak kto woli: najmniej głupim czatbotem), ale także łączy w sobie multimodalność pod postacią jednoczesnego przetwarzania tekstu, dźwięku i obrazu.
Choć owa multimodalność brzmi banalnie, to w praktyce jest ona przełomowa, bowiem OpenAI dokonało czegoś, czego nie potrafiły dokonać Apple, Amazon, Google i Microsoft. Stworzyć asystenta z prawdziwego zdarzenia.
GPT-4o zachwyca, ale i daje nadzieję na nową erę asystentów
Słowo "asystent" kojarzy się z osobą, która wspiera specjalistę w jego codziennych obowiązkach i na dobrą sprawę, w tej roli inteligentni asystenci sprawdzają się całkiem dobrze. Alexa na polecenie wyłączy światło, Asystent Google doda ziemniaki do listy zakupów, Siri doda spotkanie do kalendarza, a Cortana... o Cortanie nie rozmawiamy.
Jednak z asystentami wiązała nas całkiem binarna relacja: ja posiadam urządzenie, ja wydaję polecenia, ty ich nasłuchujesz i realizujesz. Asystentom brakowało pierwiastka ludzkiego, objawiającego się nie tylko w rozumieniu poleceń innych niż formułki, ale także w możliwości konwersacji. Bo nie jesteśmy w filmie z gatunku dramatu prawniczego czy w biografii amerykańskiego biznesmena, i w rzeczywistości mając asystenta, chcielibyśmy porozmawiać z nim o czymś więcej niż o pogodzie i pozostałym czasie do ugotowania jajek.
OpenAI prezentując model generatywnej sztucznej inteligencji GPT-4o, położyło nacisk na właśnie ten aspekt modelu - możliwe wykorzystanie jako asystent z prawdziwego zdarzenia i wyrwanie z okowów relacji "polecenie-działanie".
Na 82 sekundowym nagraniu OpenAI pokazuje, jak "sztandarowy model" GPT-4o rozmawia z człowiekiem w języku całkowicie naturalnym. AI w czasie rzeczywistym reaguje na jego ton głosu, wypowiedzi, ale i obrazowe dane wejściowe - obraz przechwytywany z przedniej kamery iPhone'a. A to wszystko bez zająknięcia się czy "laga".
GPT-4o samo podtrzymywało rozmowę poprzez zadawanie pytań dotyczących obiektów "wychwyconych" przez AI na obrazie z kamery. Ponadto GPT-4o model potrafi wyróżnić z wypowiedzi człowieka nie tylko suchą informację, ale i komunikat niewerbalny i ustosunkować się do niego również w sposób niewerbalny - to poprzez zmianę tonu głosu w zależności od poruszonej przez człowieka kwestii, wyrażając zaskoczenie, zaintrygowanie czy entuzjazm
Możliwe jest to poprzez całkiem ważny przełom w konsumenckiej AI: wspomniane wcześniej złączenie możliwości wielu modeli w jeden. Jak wyjaśnił Albert Żurek przy okazji przedstawienia skrótu nowości od OpenAI, responsywność GPT-4o wynika z faktu, że wszystkie dane wejściowe przetwarzane są przez jedną sieć neuronową, zamiast żmudnego procesu wejście-transkrypcja-generowanie odpowiedzi-przełożenie tekstu na dźwięk wymagającego przetwarzania danych przez wiele instacji sztucznej inteligencji. Dzięki czemu GPT-4o jest jedynym modelem przetwarzającym wszystkie dane, zamiast przerzucania tego pomiędzy DALL-E (obrazy) i Whisper (transkrypcja i dźwięk).
GPT-4o jest tym, czym chciało być Humane AI Pin
Co ważne dla zrozumienia istotności GPT-4o, technologia pozwalająca na łączenie dźwięku (ludzkiego zapytania), tekstu (transkrypcji dźwięku na tekst i odpowiedzi ze strony generatywnej AI) i obrazu (jako załącznika do ludzkiego zapytania) już istniała i była dostępna dla ludzi spoza świata nauki i laboratoriów badawczych koncernów technologicznych.
Jednak była ona w dużej mierze ograniczona przez rozdrobnienie działania AI na trzy modele, z których każdy brał na swoje barki przetworzenie innych danych. Nie jest to jednak rozwiązanie bez wad, gdyż sposób działania opóźniał otrzymanie odpowiedzi, a wielopoziomowe przetwarzanie jednego zapytania prowadziło do obniżenia jakości finalnej odpowiedzi.
To pośród wielu innych czynników stanowi problem choćby dla Humane AI Pin, które to urządzenie również dążyło do bycia asystentem, a wywróciło się już na etapie marketingu, właśnie przez m.in. powolne odpowiedzi i błędne interpretacje danych wejściowych. Bo nie sposób jest być asystentem, jeżeli nie umiesz policzyć obiektów położonych na wprost ciebie lub jeżeli udzielenie odpowiedzi na proste pytanie o fakt historyczny zajmuje ponad 30 sekund. Oczywiście Humane AI Pin to produkt posiadający wiele innych wad, ale ta jedna - wydajność AI, z powodzeniem mogłaby zostać naprawiona przez GPT-4o.
Całkiem niegłupim byłoby oczekiwanie, że wraz z GPT-4o może pojawić się na rynku produkt czerpiący garściami z idei Humane AI Pin, ale korzystający w pełni z najlepszego obecnie modelu OpenAI.
Nowy etap wyścigu
Tu dochodzimy do prawdopodobnie najważniejszego aspektu minionej prezentacji - wejścia w nowy etap wyścigu AI, wyścigu multimodalnych asystentów. OpenAI przypadkowo rozpoczęło wyścig AI, który de facto był wyścigiem czatbotów ChatGPT, Bing i Bard, następnie przeszedł on transformację w wyścig asystentów ChatGPT, Copilot, Gemini i Meta AI, by teraz przybrać formę wyścigu asystentów multimodalnych. Asystentów, którzy nie tylko streszczą ci nudną prezentację, napiszą odpowiedź na podstawie danych z internetu i od biedy językiem naturalnym odpowiedzą ci na trudne pytania, które pojawiły się pod prysznicem, ale i okiem kamery rozpoznają czy jesteś w garniturze w biurze czy w ogrodniczkach na działce i odpowiednio się do tego dostosują.
Co ważne, pamiętajmy, że GPT-4o to model generatywnej AI, do którego mają dostęp deweloperzy aplikacji poprzez płatne API. Tak więc każdy mający pomysł, chęci i środki, z użyciem GPT-4o może stworzyć rzeczy, o których zarządowi OpenAI się nie śniło.
Więcej na temat generatywnej sztucznej inteligencji: