強化学習で新次元に達したDeepSeek-R1の性能がGPT-4超え

強化学習
  • DeepSeek-R1-Zeroは事前学習済みモデルに強化学習を適用し、自律的に思考時間を調整できるようにした手法
  • DeepSeek-R1はSFTを補完する形で強化学習を活用し、正確でユーザーフレンドリーな推論を実現
  • 評価実験でDeepSeek-R1がOpenAIのGPT-4-1217を上回る性能を示し、省資源な推論の可能性を示唆

論文:DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning

本記事で使用している画像は論文中の図表、またはそれを参考に作成した画像を使用しております。

本論文の概要

本論文では、LLM(大規模言語モデル)の推論能力を向上させるために、新たな強化学習手法とモデル構造を提案しています。特に、DeepSeek-R1-ZeroとDeepSeek-R1という2つのシステムを開発し、それぞれ異なる手法を用いて推論能力を強化しました。

まず、DeepSeek-R1-Zeroでは、事前学習済みモデルを基盤として強化学習を適用し、専門知識や多段階推論のタスクに対応できる能力を付与しました。従来の自己教師型Fine-Tuning(SFT)を用いずに直接強化学習を適用することで、モデルが逐次的に問題解決に取り組む手法の構築に成功しました。この手法では、モデルが自律的に思考時間を調整し、より深い推論を行える点が特徴的です。DeepSeek-R1では、SFTを補完する形で強化学習を活用し、ユーザーフレンドリーな解答と精度の高い推論能力を実現しました。

さらに、引き起こされる「Aha Moment」という独特な学習現象にも注目し、モデルが突然複雑な課題を理解して解決する能力を獲得するエピソードを観測しました。これにより、モデル訓練手法に潜む可能性が新たに示唆され、将来的な発展が期待されます。

評価実験では、両モデルが数学問題やプログラミング課題などの推論関連ベンチマークで高水準なパフォーマンスを示し、特にDeepSeek-R1は、OpenAIのGPT-4-1217を上回る結果を出しました。また、小型モデルへの知識蒸留による高精度モデルの縮小化も実現し、省資源な推論への道を切り開いています。

本論文は、LLMの性能向上を目指した革新的な強化学習手法を提案し、新たな研究方向の可能性を示しました。推論能力に焦点を当てたこれらの成果は、多様な応用分野でも有用性が期待されます。

図表の解説

この図は、DeepSeek-R1モデルと他のモデルをさまざまなベンチマークで比較したパフォーマンス結果を示しています。特に、DeepSeek-R1の性能が「AIME 2024」や「MMLU」などのベンチマークで非常に高いことを示しています。たとえば、「MATH-500」では、DeepSeek-R1が97.3%の精度を達成しており、他の多くのモデルを上回っています。DeepSeek-R1は、数学やコーディング、論理推論などの分野での理由能力を強化するため、強化学習を用いて訓練されています。この結果から、DeepSeek-R1は合理的推論を促進することができる強力なモデルであることが示されています。


この図は、DeepSeek-R1-Zeroモデルがトレーニング中にAIME(American Invitational Mathematics Examination)での精度がどのように向上するかを示しています。図中の赤と青の線は、それぞれ異なるテスト条件でのモデルの精度を示しており、特に赤の線(r1-zero-cons@16)はトレーニングの進行に伴って急速に精度が向上しています。また、緑と紫の点線は、比較対象としての他のモデルの精度を表しています。全体的に、図はDeepSeek-R1-Zeroがトレーニングステップの増加とともに着実に精度を上げ、OpenAIのモデルに近づくパフォーマンスを示していることを示しています。


画像に示されている表は、異なるモデルが様々な推論関連ベンチマークでどの程度の性能を示したかを比較しています。具体的には、DeepSeek-R1-ZeroとOpenAIのo1シリーズのモデルが、AIME 2024やMATH-500、GPQA Diamond、LiveCode Bench、CodeForcesといった推論ベンチマークでの成績が記されています。 OpenAI-o1-0912は、ほとんどのベンチマークで最も高い性能を示しています。例えば、MATH-500では94.8%であり非常に高いのに対し、DeepSeek-R1-Zeroも95.9%と比較的高い性能を示しています。しかし、コード関連のベンチマーク(例えばCodeForces)では、DeepSeek-R1-ZeroはOpenAIのモデルに及ばない結果となっています。これらの結果は、これらモデルの特定のタスクに対する効率や強みを示しており、今後の改良の方向性を示唆しています。


図3は、DeepSeek-R1-Zeroの強化学習中における応答の平均長さを示しています。このグラフは、トレーニングステップが進むにつれて、モデルの応答が長くなり、より複雑な推論タスクを解決できるようになることを示しています。つまり、深い思考を必要とするタスクに取り組む際に、モデルが自然と長い時間をかけて考えるようになるという進化を描写しています。強化学習の過程で、このような自己進化が起こることで、モデルはより優れた推論能力を獲得し、複雑な問題解決ができるようになります。


この画像は、「DeepSeek-R1-Zero」モデルがどのようにして問題を解決するかを示している。具体的には、モデルが自問自答する方法で反応を再評価し、結論を導く瞬間を「アハ体験」として強調している。ここでは、モデルが与えられた方程式の解を見つけるために、途中で停まり、思考を再考することについて説明されている。この「アハ体験」は、モデルが強化学習を通じて自然に進化し、新しい問題解決能力を発揮することを示しており、研究者にとっても興味深い発見となっている。強化学習の力と美しさを示す瞬間として、この現象が取り上げられている。


この画像は、DeepSeek-R1シリーズのディスティルモデルと他のモデルの性能を比較した表です。表にはいくつかの異なるベンチマークが含まれており、AIME 2024、MATH-500、GPQA Diamond、LiveCode Bench、CodeForcesなどのタスクでのモデルの成績が示されています。各モデルの通過率や評価の数値が示され、たとえば、「DeepSeek-R1-Distill-Qwen-32B」は、これらのタスクで特に高いスコアを達成しています。この結果からわかるように、ディスティルモデルは、多くのタスクで優れた性能を示し、中でも、「OpenAI-o1-mini」を含む他のオープンソースモデルと競合する、またはそれを上回る成果を上げています。表全体として、DeepSeek-R1シリーズのモデルが、多様なロジッキングタスクでの高い性能を持つことを示しています。


この表は、異なるモデルが複数の推論関連ベンチマークでどのようなパフォーマンスを示しているかを比較しています。具体的には、QwQ-32B-Preview、DeepSeek-R1-Zero-Qwen-32B、DeepSeek-R1-Distill-Qwen-32Bの3つのモデルがAIME 2024、MATH-500、GPQA Diamond、LiveCodeBenchというベンチマークで比較されています。結果として、DeepSeek-R1-Distill-Qwen-32Bが他の2つのモデルよりも全体的に優れたパフォーマンスを示していることがわかります。これは、ディストレーションという手法を活用することで、小型モデルでも優れた推論能力を発揮できることを示唆しています。


この図は、DeepSeek-R1-Zeroモデルの訓練中の応答の平均長さを示しています。訓練が進むにつれて、応答の長さが次第に伸びていることが見て取れます。これは、DeepSeek-R1-Zeroが考える時間を増やし、より複雑な推論タスクを解決する能力を自然に身につけていることを示しています。強化学習を通じて、モデルは自ら推論プロセスを進化させ、思考の深さが向上する様子を反映しています。これは、モデルが応答生成においてより多くの情報を含めるようになり、結果的に推論能力が高まることを示唆しています。

タイトルとURLをコピーしました