Naukowcy wybrali najlepszego bota. Zmiażdżył konkurencję

OpenAI o3 zdeklasował konkurencję w nowym rankingu. Badacze oceniali AI pod kątem odpowiedzi na pytania z nauk przyrodniczych, inżynierii i medycyny.

Marcin Kusz

10.07.2025 13:41

OpenAI o3 najlepszym AI do naukowych pytań. Nowy ranking SciArena

REKLAMA

Nowa platforma benchmarkingowa SciArena, opracowana przez Allen Institute for Artificial Intelligence, wystawiła do testu 23 modele językowe, pytając je o kwestie z zakresu nauk przyrodniczych, zdrowia, inżynierii i humanistyki.

Głosami 102 naukowców z całego świata najlepszym modelem w tym zestawieniu okazał się OpenAI o3, czyli model opracowany przez twórców ChatGPT. To pierwsza taka inicjatywa, która opiera ranking nie na suchych metrykach, ale na głosach i ocenach rzeczywistych użytkowników ze środowiska naukowego. W sumie oddano ponad 13 tys. głosów, a każde pytanie było oceniane na podstawie dwóch odpowiedzi wygenerowanych przez losowo dobrane modele.

REKLAMA

Co sprawiło, że o3 zdeklasował konkurencję?

Zdaniem naukowców z Ai2, przewaga modelu o3 może wynikać z bardziej szczegółowych wyjaśnień, odniesień do literatury i technicznej precyzji w odpowiedziach. Choć architektura i dane treningowe większości modeli są niejawne, właśnie takie różnice w optymalizacji i treści uczącej mogą wyjaśniać rozbieżności w wynikach.

Jak czytamy na łamach Nature, tuż za o3 uplasował się DeepSeek-R1 z Chin, który zdobył 2. miejsce w pytaniach z nauk przyrodniczych i 4. w dziedzinie inżynierii. Na ostatnim miejscu podium uplasował się model Gemini 2.5 Pro od Google, który bardzo dobrze wypadł w zadaniach związanych z opieką zdrowotną.

Jak działa SciArena i dlaczego jest wyjątkowa?

Platforma SciArena każdemu użytkownikowi pozwala na zadawanie własnych pytań i otrzymywanie odpowiedzi od dwóch losowych modeli. Podczas głosowania można wybrać lepszą odpowiedź, uznać je za porównywalne lub ocenić obie jako niesatysfakcjonujące. Warto podkreślić, że do oficjalnego rankingu liczą się jedynie głosy od zweryfikowanych użytkowników, którzy zaakceptowali regulamin platformy.

Co ważne, odpowiedzi wspierane są odniesieniami do Semantic Scholar, czyli bazy wiedzy naukowej stworzonej przez Ai2.

Nowe możliwości dla nauki, ale też spore wyzwanie

Zdaniem takich badaczy, jak Jonathan Kummerfeld z Uniwersytetu w Sydney, narzędzie może pomóc naukowcom lepiej odnajdywać nowe publikacje i trendy w ich dziedzinach. Może również zwiększyć konkurencję między twórcami modeli, oferując bardziej przejrzysty sposób mierzenia postępu.

Przeczytaj także:

REKLAMA

Eksperci jednocześnie przestrzegają przed bezkrytycznym traktowaniem wyników generowanych przez AI. Modele językowe mogą błędnie interpretować terminologię, źle cytować źródła, a czasem wręcz generować treści sprzeczne z publikacjami. SciArena nie zastąpi więc pełnej lektury pracy naukowej, ale może stać się wartościowym punktem wyjścia.

*Źródło grafiki wprowadzającej: Mehaniq / Shutterstock.com

REKLAMA

Marcin Kusz

10.07.2025 13:41

Tagi: badania naukowe naukowcy Sztuczna inteligencja (AI)

Najnowsze

13:21

Zuckerberg przepalił miliardy, teraz się wycofuje. Będą uczyć o tym w podręcznikach

Aktualizacja: 2025-12-05T13:21:11+01:00