REKLAMA

Boty zabiorą pracę ludziom? Tak, ale tylko tym najmniej utalentowanym

Taki wniosek przynosi ze sobą najnowszy test przeprowadzony przez badaczy z OpenAI.

Boty zabiorą pracę ludziom? Tak, ale tylko tym najmniej utalentowanym
REKLAMA

Media i szeroko pojęci eksperci rynku pracy wróżą programistom konieczność przekwalifikowania i zmiany zawodu. Powodem tego ma być sztuczna inteligencja, która sukcesywnie staje się lepsza w szerokiej gamie zadań - w tym w generowaniu kodu programistycznego w różnych językach. Tę teorię podważają jednak badacze OpenAI, według których AI jest mocno w plecy względem ludzkich programistów.

REKLAMA

Zastąpienie programistów przez AI nie jest takie oczywiste. Tak mówi OpenAI

Naukowcy z OpenAI opublikowali nierecenzowany artykuł naukowy, w którym opisali nowo opracowany przez siebie benchmark - test umiejętności AI. SWE-Lancer stworzony jest z myślą o sprawdzaniu potencjału AI w rozwiązywaniu różnych problemów programistycznych. SWE-Lancer został stworzony z wykorzystaniem ponad 1400 przykładowych zadań i zleceń z amerykańskiej platformy dla freelancerów Upwork. W test badacze zaangażowali trzy modele AI: OpenAI o1, OpenAI GPT-4o oraz Anthropic Claude 3.5 Sonnet.

W ramach SWE-Lancer, modele musiały wykonywać zadania z dwóch kategorii. Pierwszą było zwykłe rozwiązywanie problemów i błędów (bugów) w kodzie programistycznym aplikacji. Drugą z nich były zadania z zakresu zarządzania ("management tasks"), które w normalnych warunkach powierzone zostałyby programistom na stanowiskach takich jak tech lead czy engineering manager. Aby podnieść poprzeczkę, wszystkie modele AI działały w trybie offline, co uniemożliwiło im korzystanie z zasobów internetu.

Sztuczna inteligencja zarobiła ułamek tego, co ludzcy programiści

Wyniki działania modeli były mierzone w dolarach - pieniądzach, jakie otrzymali freelancerzy z Upwork za wykonanie tych samych zadań. Za wykonanie zadań w ramach podstawowego benchmarku SWE-Lancer, systemy AI mogły "otrzymać" milion dolarów. W ramach trudniejszego, ale mniejszego zestawu SWE-Lancer Diamond AI mogło otrzymać do 500 tys. dolarów.

GPT-4o w podstawowym teście zgarnął 304 tys. dolarów, w Diamentowym 139 tys. dol. Lepiej poszło o1, który otrzymał odpowiednio 380 tys. i 166 tys. dolarów. Najlepiej poszło Claude 3.5 Sonnet, który wykonał zadania warte 400 tys. i 208,05 tys. dolarów.

Nadal jednak żaden z modeli nie wykonał nawet połowy zadań. Według badaczy AI radziła sobie z podstawowymi i "powierzchniowymi" zadaniami. Jednak gdy zlecenie wymagało pracy z dużą ilością kodu w większym projekcie, sztuczna inteligencja halucynowała lub zaprzestawała wykonywania polecenia.

Chociaż wszystkie trzy duże modele językowe w większości przypadków działały "znacznie szybciej niż człowiek", to nie były one również w stanie zrozumieć swoich błędów lub samych problemów z kodem, "prowadząc do rozwiązań, które są nieprawidłowe lub niewystarczająco kompleksowe". Zdaniem badaczy OpenAI, systemy AI wymagają "znacznie wyższej niezawodności, zanim zostaną wdrożone".

REKLAMA

Może zainteresować cię także:

REKLAMA
Najnowsze
Aktualizacja: 2025-12-05T13:35:11+01:00
Aktualizacja: 2025-12-05T11:48:55+01:00
Aktualizacja: 2025-12-05T11:17:19+01:00
Aktualizacja: 2025-12-05T10:25:24+01:00
Aktualizacja: 2025-12-05T09:01:01+01:00
Aktualizacja: 2025-12-05T08:44:08+01:00
Aktualizacja: 2025-12-05T08:34:55+01:00
Aktualizacja: 2025-12-05T08:05:55+01:00
Aktualizacja: 2025-12-05T07:50:09+01:00
Aktualizacja: 2025-12-05T07:23:56+01:00
Aktualizacja: 2025-12-05T06:09:45+01:00
Aktualizacja: 2025-12-05T06:09:15+01:00
Aktualizacja: 2025-12-04T21:34:07+01:00
Aktualizacja: 2025-12-04T21:10:51+01:00
Aktualizacja: 2025-12-04T20:37:21+01:00
Aktualizacja: 2025-12-04T20:10:27+01:00
Aktualizacja: 2025-12-04T19:54:18+01:00
Aktualizacja: 2025-12-04T18:52:34+01:00
Aktualizacja: 2025-12-04T16:25:41+01:00
Aktualizacja: 2025-12-04T15:24:58+01:00
Aktualizacja: 2025-12-04T15:17:00+01:00
Aktualizacja: 2025-12-04T13:45:32+01:00
REKLAMA
REKLAMA
REKLAMA