AI-Papers
Neural Thickets:ランダム摂動だけでPPO/GRPOと互角なLLMポスト学習手法 | AI-Papers