Boty zabiorą pracę ludziom? Tak, ale tylko tym najmniej utalentowanym

Taki wniosek przynosi ze sobą najnowszy test przeprowadzony przez badaczy z OpenAI.

24.02.2025 12:00

Boty zabiorą pracę ludziom? Tak, ale tylko tym najmniej utalentowanym

REKLAMA

Media i szeroko pojęci eksperci rynku pracy wróżą programistom konieczność przekwalifikowania i zmiany zawodu. Powodem tego ma być sztuczna inteligencja, która sukcesywnie staje się lepsza w szerokiej gamie zadań - w tym w generowaniu kodu programistycznego w różnych językach. Tę teorię podważają jednak badacze OpenAI, według których AI jest mocno w plecy względem ludzkich programistów.

REKLAMA

Zastąpienie programistów przez AI nie jest takie oczywiste. Tak mówi OpenAI

Naukowcy z OpenAI opublikowali nierecenzowany artykuł naukowy, w którym opisali nowo opracowany przez siebie benchmark - test umiejętności AI. SWE-Lancer stworzony jest z myślą o sprawdzaniu potencjału AI w rozwiązywaniu różnych problemów programistycznych. SWE-Lancer został stworzony z wykorzystaniem ponad 1400 przykładowych zadań i zleceń z amerykańskiej platformy dla freelancerów Upwork. W test badacze zaangażowali trzy modele AI: OpenAI o1, OpenAI GPT-4o oraz Anthropic Claude 3.5 Sonnet.

W ramach SWE-Lancer, modele musiały wykonywać zadania z dwóch kategorii. Pierwszą było zwykłe rozwiązywanie problemów i błędów (bugów) w kodzie programistycznym aplikacji. Drugą z nich były zadania z zakresu zarządzania ("management tasks"), które w normalnych warunkach powierzone zostałyby programistom na stanowiskach takich jak tech lead czy engineering manager. Aby podnieść poprzeczkę, wszystkie modele AI działały w trybie offline, co uniemożliwiło im korzystanie z zasobów internetu.

Sztuczna inteligencja zarobiła ułamek tego, co ludzcy programiści

Wyniki działania modeli były mierzone w dolarach - pieniądzach, jakie otrzymali freelancerzy z Upwork za wykonanie tych samych zadań. Za wykonanie zadań w ramach podstawowego benchmarku SWE-Lancer, systemy AI mogły "otrzymać" milion dolarów. W ramach trudniejszego, ale mniejszego zestawu SWE-Lancer Diamond AI mogło otrzymać do 500 tys. dolarów.

GPT-4o w podstawowym teście zgarnął 304 tys. dolarów, w Diamentowym 139 tys. dol. Lepiej poszło o1, który otrzymał odpowiednio 380 tys. i 166 tys. dolarów. Najlepiej poszło Claude 3.5 Sonnet, który wykonał zadania warte 400 tys. i 208,05 tys. dolarów.

Nadal jednak żaden z modeli nie wykonał nawet połowy zadań. Według badaczy AI radziła sobie z podstawowymi i "powierzchniowymi" zadaniami. Jednak gdy zlecenie wymagało pracy z dużą ilością kodu w większym projekcie, sztuczna inteligencja halucynowała lub zaprzestawała wykonywania polecenia.

Chociaż wszystkie trzy duże modele językowe w większości przypadków działały "znacznie szybciej niż człowiek", to nie były one również w stanie zrozumieć swoich błędów lub samych problemów z kodem, "prowadząc do rozwiązań, które są nieprawidłowe lub niewystarczająco kompleksowe". Zdaniem badaczy OpenAI, systemy AI wymagają "znacznie wyższej niezawodności, zanim zostaną wdrożone".

REKLAMA

Może zainteresować cię także:

REKLAMA

Malwina Kuśmierek

24.02.2025 12:00

Tagi: OpenAI Sztuczna inteligencja (AI)

Najnowsze

13:35

Najlepszy czytnik e-booków na Święta. Oto co musisz wiedzieć

Aktualizacja: 2025-12-05T13:35:11+01:00