AI-Papers
LongTraceRLとは?知識グラフ探索とルーブリック報酬で長文脈推論を強化するRL手法 | AI-Papers