AI-Papers
MRPOとは?医療VQAの連鎖推論エラーを指数ペナルティで抑制するRL新手法 | AI-Papers