Boty zabiorą pracę ludziom? Tak, ale tylko tym najmniej utalentowanym
Taki wniosek przynosi ze sobą najnowszy test przeprowadzony przez badaczy z OpenAI.

Media i szeroko pojęci eksperci rynku pracy wróżą programistom konieczność przekwalifikowania i zmiany zawodu. Powodem tego ma być sztuczna inteligencja, która sukcesywnie staje się lepsza w szerokiej gamie zadań - w tym w generowaniu kodu programistycznego w różnych językach. Tę teorię podważają jednak badacze OpenAI, według których AI jest mocno w plecy względem ludzkich programistów.
Zastąpienie programistów przez AI nie jest takie oczywiste. Tak mówi OpenAI
Naukowcy z OpenAI opublikowali nierecenzowany artykuł naukowy, w którym opisali nowo opracowany przez siebie benchmark - test umiejętności AI. SWE-Lancer stworzony jest z myślą o sprawdzaniu potencjału AI w rozwiązywaniu różnych problemów programistycznych. SWE-Lancer został stworzony z wykorzystaniem ponad 1400 przykładowych zadań i zleceń z amerykańskiej platformy dla freelancerów Upwork. W test badacze zaangażowali trzy modele AI: OpenAI o1, OpenAI GPT-4o oraz Anthropic Claude 3.5 Sonnet.
W ramach SWE-Lancer, modele musiały wykonywać zadania z dwóch kategorii. Pierwszą było zwykłe rozwiązywanie problemów i błędów (bugów) w kodzie programistycznym aplikacji. Drugą z nich były zadania z zakresu zarządzania ("management tasks"), które w normalnych warunkach powierzone zostałyby programistom na stanowiskach takich jak tech lead czy engineering manager. Aby podnieść poprzeczkę, wszystkie modele AI działały w trybie offline, co uniemożliwiło im korzystanie z zasobów internetu.
Sztuczna inteligencja zarobiła ułamek tego, co ludzcy programiści
Wyniki działania modeli były mierzone w dolarach - pieniądzach, jakie otrzymali freelancerzy z Upwork za wykonanie tych samych zadań. Za wykonanie zadań w ramach podstawowego benchmarku SWE-Lancer, systemy AI mogły "otrzymać" milion dolarów. W ramach trudniejszego, ale mniejszego zestawu SWE-Lancer Diamond AI mogło otrzymać do 500 tys. dolarów.
GPT-4o w podstawowym teście zgarnął 304 tys. dolarów, w Diamentowym 139 tys. dol. Lepiej poszło o1, który otrzymał odpowiednio 380 tys. i 166 tys. dolarów. Najlepiej poszło Claude 3.5 Sonnet, który wykonał zadania warte 400 tys. i 208,05 tys. dolarów.
Nadal jednak żaden z modeli nie wykonał nawet połowy zadań. Według badaczy AI radziła sobie z podstawowymi i "powierzchniowymi" zadaniami. Jednak gdy zlecenie wymagało pracy z dużą ilością kodu w większym projekcie, sztuczna inteligencja halucynowała lub zaprzestawała wykonywania polecenia.
Chociaż wszystkie trzy duże modele językowe w większości przypadków działały "znacznie szybciej niż człowiek", to nie były one również w stanie zrozumieć swoich błędów lub samych problemów z kodem, "prowadząc do rozwiązań, które są nieprawidłowe lub niewystarczająco kompleksowe". Zdaniem badaczy OpenAI, systemy AI wymagają "znacznie wyższej niezawodności, zanim zostaną wdrożone".
Może zainteresować cię także: