ZPPOとは？最近接発達領域の概念でAI知識蒸留を改善する強化学習手法

BCQとNCQの2つのプロンプト戦略で、勾配更新なしに教師モデルの知識を転移。GRPO・on/off-policy蒸留を上回る性能を実現する
Qwen3.5（0.8B〜9B）×31ベンチマーク検証でVLM評価最大+9.3pp（0.8B）の改善を実証。蒸留が悪化させるLLM・動画ベンチマークも改善する
小規模モデルほど改善幅が大きく（最大+9.3pp）、エッジデバイスや軽量モデルの性能向上に特に実用的な手法として期待される

小規模モデル訓練の2つの課題

大規模言語モデル（LLM）の知識を小規模モデルへ移す「知識蒸留」と、報酬信号で性能を引き上げる「強化学習（RL）」は、モデルの効率化において中心的な役割を担っています。しかし、0.8Bや2Bといった小規模モデルを対象にする場合、どちらの手法にも根本的な問題があります。

知識蒸留では、巨大な教師モデルの出力分布（ロジット）を学生モデルに無理やり合わせようとします。27Bの教師に対して0.8Bの学生という大きな規模差がある場合、この強制的な模倣は学生の汎化能力を損ない、暗記に陥る傾向があることが知られています。

一方、RL の代表手法である GRPO（Group Relative Policy Optimization）にも別の問題があります。学生モデルが全試行で失敗した問題はアドバンテージ（利得）がゼロとなり、学習信号が生まれません。最も難しく最も学ぶ価値のある問題ほど、学習の機会が失われるという逆説が生じます。NVIDIAらの研究チームはこの2つの課題をまとめて解決するZPPOを提案しました。

最近接発達領域（ZPD）とは？

ZPPOの名称と設計の発想元は、ソビエトの心理学者レフ・ヴィゴツキーが提唱した「最近接発達領域（Zone of Proximal Development、ZPD）」という教育理論です。ZPDとは、「子ども自身が単独ではまだ解けないが、適切なサポートがあれば解ける問題」の範囲を指します。

難しすぎて全く歯が立たない問題も、簡単すぎて何も学べない問題も、成長に結びつきません。「少し背伸びが必要な問題」にこそ最大の学習効果があるという原則です。これをAIモデルの訓練に当てはめると、ロールアウト正解率が0%（全失敗）の問題は学習信号がなく、100%（全正解）の問題には学ぶことがない。50%前後の難問が最も効率的な訓練素材になるという考えに行き着きます。

図1: ZPPOが解決しようとする2つの失敗モードの概念図。小規模モデルへのロジット蒸留の脆弱性と、RL中への教師応答注入による分布ずれを示し、BCQとNCQがそれぞれどう対処するかを説明する

ZPPOの3つのコンポーネント

ZPPOは「問題再挑戦バッファー」「BCQ」「NCQ」という3要素で構成されます。それぞれ単体では効果が限定的ですが、組み合わせることで超相加的な性能向上が生まれます。

まずPrompt Replay Buffer（問題再挑戦バッファー）は、ロールアウト正解率が50%未満の「難問」のプロンプトだけを保存するキューです。回答（レスポンス）は保存せず、問題文のみを記録します。正解率が50%を超えた問題は「卒業」としてバッファーから外れ、容量を超えた場合は古い問題をFIFO（先入れ先出し）方式で排除します。これにより、各学生モデルの「最近接発達領域」にある問題だけを繰り返し訓練できます。

次にBCQ（Binary Candidate-included Question、二択候補付き問題）は、難問に対して教師モデルの正解応答と学生モデルの誤答を匿名の選択肢として並べ、どちらが正しいかを学生自身に推論させる形式です。両候補の長さをそろえて匿名化することで、どちらが教師か学生かを特定できないようにします。出力トークンはすべて学生が生成するため、on-policy（方策内）学習の保証を維持しながら教師の知識を参照できます。

最後にNCQ（Negative Candidate-included Question、否定候補付き問題）は、学生の複数の失敗ロールアウトをまとめて一つのプロンプトに集約し、「これらの回答はすべて間違いだ」と伝える形式です。異なる試行で繰り返し現れる誤りのパターンを学生に認識させ、自己修正を促します。NCQでは教師の応答をプロンプトに含めず、学生の失敗例だけを提示する点がBCQとの違いです。

図2: ZPPOの全体フロー。難問バッファーへの採用（a）、BCQによる正解・誤答の対比（b）、NCQによる失敗パターンの集約（c）、統合バッチでのポリシー勾配更新（d）

実験結果

NVIDIAのチームはQwen3.5ファミリーの4スケール（0.8B、2B、4B、9B）を学生モデル、27Bモデルを教師として用い、31ベンチマークで評価しました。ベンチマークは視覚言語モデル（VLM）16件、言語モデル（LLM）10件、動画理解5件から構成されます。

VLMベンチマークではGRPOとの比較で0.8Bが+9.3pp、2Bが+5.2pp、4Bが+4.0pp、9Bが+2.8ppと、小規模モデルほど大きな改善が得られました。従来のon/off-policy蒸留がLLM・動画ベンチマークで平均−2.5pp〜−0.3ppの低下を示した一方、ZPPOは同じベンチマーク群でも+6.8pp〜+2.7pp（0.8B〜9B）の改善を達成しています。

アブレーション実験では、バッファー単体・BCQ単体・NCQ単体はそれぞれ限定的な効果しか示さず、3要素の組み合わせが超相加的な性能向上をもたらすことが確認されています。RL設計においては、ステップあたり4回の反復更新が最適であること、ゼロアドバンテージグループを正規化の統計から除外することが小規模モデルの安定した学習に重要であることも示されました。

NVIDIAはこれまでにもNemotron 3 Ultraなど効率的なモデル設計の研究を手がけており、ZPPOはその流れを受け継いだ小規模モデル最適化の研究として位置づけられます。

まとめ

ZPPOは、ヴィゴツキーの教育理論をAIの訓練設計に応用した独自のアプローチです。難問を選んで集中訓練し、教師の知識をプロンプト経由で提供することで、勾配更新の弊害を避けながら知識蒸留を実現します。

31ベンチマークにわたる検証結果は、特に計算資源が限られる小規模モデルでの有効性を示しています。エッジデバイスやモバイル向けの軽量モデル強化という実用的な問題に対して、教育心理学の知見が意外な形で活用できることを示した研究といえます。なお、現状は利用できる教師モデルが必要という前提があり、教師なし・セルフプレイでの拡張が今後の課題として残ります。