AI będzie analizować prawo i zasady etyczne, zanim coś odpowie. Czujesz się bezpieczniej?
AI nie będzie generować niepokojących rzeczy przy jednoczesnym braku cenzury. "Dobrowolne dopasowanie" od OpenAI to metoda treningowa, która zakłada, że tak jak ludzie, AI będzie czytać zasady zanim coś napisze.
Efektem ubocznym przy trenowaniu dużych modeli językowych sztucznej inteligencji jest fakt, iż przygotowując najlepszą możliwą odpowiedź na zapytanie, równocześnie nie posiadają one hamulców moralnych ani etycznych. A to tworzy problemy nie tylko w sytuacjach, gdy ktoś chce dowiedzieć się, jak zbudować broń czy wygenerować kod programistyczny złośliwego oprogramowania, ale także przy dyskusjach na tematy takie jak polityka czy najtragiczniejsze momenty w historii świata.
OpenAI ma pomysł jak trzymać AI na smyczy, ale nie cenzurować
Firmy odpowiadające za te systemy sztucznej inteligencji muszą także uwzględniać ryzyko, że czatboty zbudowane na tych modelach AI mogą wygenerować coś niepokojącego i niebezpiecznego. Stąd AI prewencyjnie jest trenowana tak, by na pewne tematy odmawiać odpowiedzi lub udzielić odpowiedzi wymijającej, nawet jeżeli samo pytanie nie miało znamion złych intencji. To było szczególnie widoczne podczas listopadowych wyborów prezydenckich w Stanach Zjednoczonych, gdzie nie raz i nie dwa koncernom technologicznym prewencyjnie "kneblującym" czatboty zarzucano cenzurę.
OpenAI znalazł sposób na kolokwialne "owca cała i wilk syty". Sposobem tym ma być zastosowanie nowej metody wnioskowania w modelach generatywnej AI, opisanej przez badaczy i inżynierów organizacji w publikacji "Deliberative Alignment: Rozumowanie umożliwia bezpieczniejsze działanie modeli językowych".
Naukowcy OpenAI opisują w niej metodę treningową nazwaną przez nich "uzgodnienie deliberatywne" ("deliberative alignment"). Metoda polega na uczeniu modeli AI "myślenia" o regułach i zasadach przed udzieleniem odpowiedzi, w podobny sposób jak ludzcy użytkownicy przy publikowaniu treści (np. w serwisach społecznościowych) muszą uwzględnić ogólnie przyjęte normy i warunki korzystania z platformy. Zamiast uczyć się na przykładach dobrych i złych zachowań, model jest bezpośrednio uczony rzeczywistych zasad, których musi przestrzegać.
Szkolenie odbywa się w dwóch etapach. Pierwszym z nich jest Supervised Fine-Tuning (SFT), podczas którego sztuczna inteligencja uczy się myśleć o zasadach bezpieczeństwa, obserwując podane przez naukowców przykłady. Każdy przykład zawiera żądanie użytkownika, proces myślowy sztucznej inteligencji (zwany przez badaczy łańcuchem myśli), który odnosi się do określonych zasad bezpieczeństwa oraz ostateczną odpowiedź. Sztuczna inteligencja na podstawie tych informacji uczy się łączyć żądanie, odpowiednie zasady bezpieczeństwa i sposób reagowania. Stopniowo naukowcy usuwają z treningu zasady tak, aby AI sama łączyła tematy różnych zapytań z istotnymi dla nich zasadami bezpieczeństwa.
Następnie w ramach uczenia przez wzmacnianie (Reinforcement Learning) sztuczna inteligencja jest dalej szkolona, aby skuteczniej myśleć o bezpieczeństwie. Wykorzystuje do tego inną sztuczną inteligencję - sędziego, która ma dostęp do zasad bezpieczeństwa, aby oceniać, jak dobrze sztuczna inteligencja przestrzega zasad, na których była trenowana. Sędzia nagradza AI za dobre odpowiedzi, ale i karze za niepoprawne. Jak zaznaczają naukowcy, na tym etapie sędzia nie widzi procesu myślowego ocenianej AI, by skupić się jedynie na ocenie samych odpowiedzi.
Sztuczna inteligencja OpenAI uczy się na warunkach korzystania z usługi
Podejście to jest nowatorskie ze względu na nieopieranie się na przykładach odpowiedzi oznaczonych przez człowieka - trenowania AI w sposób, który doprowadza do cenzury, gdyż człowiek podaje AI bezpośrednio jakie odpowiedzi są przez niego pożądane lub niepożądane. Zamiast tego model generuje własne dane szkoleniowe na podstawie zbiorów zasad i przykładów zachowań pokazywanych mu przez naukowców.
Uzgodnienie deliberatywne zostało zastosowane w modelach z serii o i widzą oni w metodzie sposób na "określić granicę między zgodnością, odmową i bezpiecznym ukończeniem [polecenia] w sposób bardziej szczegółowy niż było to możliwe wcześniej".
Wierzymy, że ta zniuansowana kontrola może prowadzić do modeli, które są nie tylko bezpieczniejsze, ale także bardziej pomocne. Przewidujemy, że zasady OpenAI będą nadal ewoluować, ale szkolenie modeli w celu dokładnego przestrzegania obecnie obowiązujących zasad jest kluczowe. [Deliberatywne dopasowanie] pomaga nam budować umiejętności dostosowywania się do wszelkich wymogów prawnych, zapewniając nieocenione przygotowanie do przyszłych scenariuszy, w których stawka jest niezwykle wysoka lub gdzie ścisłe przestrzeganie zasad ma kluczowe znaczenie.
Podsumowują badacze
Może zainteresować cię także:
Zdjęcie główne: Ju Jae-young / Shutterstock