強化学習 【Meta-CoT】高難度な数学タスクに優れたフレームワークでLLMの推論能力を向上 新たなフレームワーク「Meta-CoT」で複雑な推論能力を向上!自己強化型学習法とバックトラッキング機能を活用し、モデルの正確性と自己修正能力を強化。特に高難度の数学タスクで優れた性能、「Big MATH」が貢献。 2025.01.30 強化学習論文解説