Następnie w ramach uczenia przez wzmacnianie (Reinforcement Learning) sztuczna inteligencja jest dalej szkolona, aby skuteczniej myśleć o bezpieczeństwie. Wykorzystuje do tego inną sztuczną inteligencję - sędziego, która ma dostęp do zasad bezpieczeństwa, aby oceniać, jak dobrze sztuczna inteligencja przestrzega zasad, na których była trenowana. Sędzia nagradza AI za dobre odpowiedzi, ale i karze za niepoprawne. Jak zaznaczają naukowcy, na tym etapie sędzia nie widzi procesu myślowego ocenianej AI, by skupić się jedynie na ocenie samych odpowiedzi.