言語・LLM LLMの考えすぎを抑え効率性20%向上する手法
LLMの考えすぎ問題がモデルの効率と精度に与える影響を分析し、Reasoning Preference Optimizationで緩和。提案手法により数学テストの精度と効率が約10%-20%向上。o1やQwQ-32Bなどを用い、数学的問題や一般知識に基づくテストを実施。
言語・LLM
言語・LLM
画像
論文解説
言語・LLM
動画
マルチモーダル
マルチモーダル
マルチモーダル
言語・LLM