ChatGPT na sterydach? Czym jest AutoGPT?
Kiedy myśleliśmy, że generatywna sztuczna inteligencja sama w sobie jest już najlepszym, co może spotkać szefów szukających oszczędności w zatrudnieniu, ambitni programiści podnieśli poprzeczkę. AutoGPT robi automatycznie to wszystko, na co ChatGPT i GPT-4 potrzebują kilkudziesięciu minut rozmowy i poprawek.
Przez ostatnie pół roku świat właściwie zachłysnął się możliwościami generatywnej sztucznej inteligencji, która jest w stanie odpowiedzieć na każde pytanie. No może nie na każde i nie odpowiedzieć, a wygenerować ciąg słów, który "uważa" za pożądaną przez człowieka treść. Niemniej jednak modele ChatGPT, GPT-4 oraz nowy Bing i Bard zachwycają miliony ludzi dziennie.
Generatywnej sztucznej inteligencji powierzamy bardzo wiele, od odpowiedzenia nam na nietypowe pytania dotyczące historii i nauk ścisłych, poprzez przygotowywanie dłuższych treści - o ile nie po prostu całych projektów. Jednak większość podejść do zaprzęgnięcia generatywnej sztucznej inteligencji do pisania dłuższych tekstów nie kończy się na wpisaniu jednego promptu, a całej ich serii oraz poprawianiu i nakierowywaniu modelu, na to czego konkretnie się potrzebuje.
No i nie zapominajmy, że nasi ulubieńcy od OpenAI są ograniczeni przez moderację treści oraz brak "połączenia" z internetem. Remedium na te wszystkie bolączki jest AutoGPT.
Co to jest AutoGPT?
Bardzo wiele osób nazywa AutoGPT "ChatGPT na sterydach" - czy to prawda? I tak i nie.
Nie, gdyż wbrew temu co sugeruje jego nazwa, AutoGPT nie jest tworem OpenAI. Nie jest nawet modelem sztucznej inteligencji, a narzędziem korzystającymi z API modeli OpenAI.
AutoGPT został stworzony pod koniec marca bieżącego roku przez Torana Bruce Richardsa, twórcy gier i założyciela firmy tworzącej oprogramowanie Significant Gravitas. Jak opisuje programista na swoim profilu na Twitterze, AutoGPT jest "otwartoźródłowym projektem stanowiącym eksperyment w kierunku uczynienia GPT-4 w pełni autonomicznym modelem sztucznej inteligencji".
Do stworzenia AutoGPT Richardsa zainspirowało wydanie modelu GPT-4, który już krótko po oficjalnym wydaniu zyskał miano najlepszej sztucznej inteligencji OpenAI, wykazując niezwykłe możliwości w zarówno rozumieniu, jak i generowaniu tekstu. Programista swym projektem chciał sprawdzić jak daleko może "popchnąć" automatyzację pracy ze sztuczną inteligencją.
Jak działa AutoGPT i co różni go od ChatGPT i innych modeli?
W dużym uproszczeniu AutoGPT jest aplikacją napisaną w języku Python, która do działania wykorzystuje modele językowe OpenAI, a to za sprawą API, które firma udostępnia odpłatnie wszystkim zainteresowanym osobom. To, co odróżnia aplikację AutoGPT od zwykłych modeli sztucznej inteligencji jest fakt, że automatyzuje ona procesy, które przy użyciu "czystych" modeli musielibyśmy robić samodzielnie.
Przykładowo, zlecając ChatGPT czy GPT-4 stworzenie bloga, opisze ci kroki, które musisz podjąć, aby to osiągnąć (wybrać tematykę, nazwę, wybrać platformę itd.). Sztuczna inteligencja sama w sobie z jednego promptu nie zrobi nic za nas i musimy ciągać ją za język w kolejnych kwestiach: "Zaproponuj nazwę bloga o tematyce...", "Napisz w języku HTML dwukolumnowy układ bloga", "Stwórz content plan" - po wpisaniu wielu promptów, poprawieniu ich i sklejeniu odpowiedzi w jedną spójną całość otrzymalibyśmy "plan" na bloga.
AutoGPT automatyzuje wszystkie te procesy poprzez rozbicie prośby o "stworzenie bloga o tematyce... na platformie..." na pomniejsze zadania, które następnie wykona samodzielnie. Od samej nazwy, po sugerowany plan treści, aż po wygenerowanie kodu strony i zasugerowanie najlepszego obecnie hostingu - bowiem AutoGPT ma połączenie z internetem.
To tylko przykład, bo możliwości AutoGPT są ograniczone jedynie przez wyobraźnię. W internecie możemy znaleźć liczne przykłady AutoGPT, który samodzielnie tworzy całe aplikacje (i instaluje potrzebne do tego środowisko programistyczne), pisze scenariusz podcastu czy... zamawia pizzę.
Jak używać AutoGPT i czy jest on darmowy?
Pomimo że nasi ulubieńcy od OpenAI są niezwykle intuicyjni i prości w użyciu, tego samego nie można powiedzieć o AutoGPT. Aby skorzystać z aplikacji, należy pobrać ją z repozytorium GitHub (darmowe), następnie pobrać jedno ze środowisk, w którym AutoGPT będzie pracował: Docker, Python w wersji 3.10 (lub nowszej) lub Microsoft Visual Studio Code z wtyczką Dev Containers (wszystkie trzy opcje są darmowe), a następnie postępować zgodnie z instrukcjami przygotowanymi przez twórcę aplikacji.
Schody zaczynają się przy przygotowaniu AutoGPT do działania, gdyż ten wymaga dostępu API jednego z modeli OpenAI - ChatGPT lub GPT-4 (GPT-4 jest preferowany). Dostęp do API jest prosty, lecz płatny i trudno jest oszacować ile właściwie będzie kosztować korzystanie z AutoGPT, gdyż działa on w systemie "kredytów" - możliwych do wykupienia tokenów, które są "zjadane" za każdym razem gdy AutoGPT wykorzystuje model sztucznej inteligencji OpenAI do generowania tekstu. Im więcej tekstu wygeneruje, tym bardziej uderzy to po portfelu.
Jak podaje OpenAI na swojej stronie, tysiąc tokenów odpowiada około 750 słowom. Cena tysiąca tokenów zależna jest od modelu i waha się pomiędzy 0,002 dolara (ok. 0,0084 złoty) a 0,12 dolara (ok. 50 groszy).
Otwartoźródłowość projektu pozwoliła innym programistom nieco uprościć działanie AutoGPT, a konkretnie stworzyć własne "wersje" AutoGPT, które działają w przeglądarce i oferują niemalże to samo co oryginalna wersja. Dwa projekty, które czerpią z dzieła Richardsa to otwartoźródłowe AgentGPT oraz godmode.space. Choć korzystanie z nich nie wymaga instalacji programu, nadal nie są to darmowe rozwiązania, gdyż wymagają one dostępu do API OpenAI, który - ponownie - jest płatny.
AutoGPT w szerszej perspektywie
AutoGPT (i jego prostsze odpowiedniki) to z perspektywy użytkownika realna konkurencja dla ChatGPT i GPT-4, bowiem dodają one do standardowej pracy z modelami kolejny stopień automatyzacji i skracają czas potrzebny na wykonanie tego samego zadania - a przynajmniej pozwalają na odejście od komputera gdy ten generuje - na przykład - scenariusz prezentacji.
Jednak czy AutoGPT to konkurencja dla OpenAI? Jest wręcz przeciwnie, istnienie tego typu narzędzi jest wręcz pożądane przez firmę, gdyż daje jej kolejne źródło zarobku (poprzez API, które z resztą jest udostępniane jedynie w tym celu: do budowania kolejnych aplikacji, które generują przychody), a jednocześnie podsuwa pomysł kolejnego wykorzystania dużych modeli językowych. Ponadto projekt jest otwartoźródłowy, co oznacza, że każdy - włącznie z OpenAI, ma wgląd w to jak działa.
Jednocześnie warto zaznaczyć, że wydajność AutoGPT jest całkowicie zależna od modelu językowego, do którego go "podepniemy", bowiem ChatGPT (GPT-3.5) i GPT-3 są znacznie mniej pojętne od GPT-4. Do tego nie jest on wolny od typowych problemów językowych modeli SI: halucynacje, błędy językowe i rzeczowe. A za poprawienie każdego błędu trzeba nomen omen, płacić, bo w przypadku korzystania z API (w przeciwieństwie do całkowicie darmowego ChatGPT czy GPT-4 w subskrypcji ChatGPT+) każde słowo ma swoją wartość, a zamówienie pizzy może kosztować dodatkowe tysiąc dolarów.