AI-Papers
MARBLEとは?拡散モデルRL微調整で複数報酬を同時最適化する勾配ハーモナイゼーション手法 | AI-Papers