PRISMとは？マルチモーダルRLの分布ドリフトをMoE対抗学習で解消する新手法

SFTからRLVRへの移行時に生じる分布ドリフトを対抗学習で修正する3段階パイプライン「PRISM」をQwen3-VLに適用し有効性を実証
知覚専門家と推論専門家を持つMoEディスクリミネータにより、単一識別器では困難だった2種類のエラーを同時に評価し分布を整列
教師モデルのロジット不要のブラックボックス設計でGRPO・DAPO・GSPOの複数RLアルゴリズムすべてで安定した改善を達成

研究の背景と課題

大規模マルチモーダルモデル（Large Multimodal Model、LMM）の事後学習では、教師あり微調整（Supervised Fine-Tuning、SFT）でモデルの基礎的な応答形式を整えてから、検証可能な報酬を用いた強化学習（Reinforcement Learning from Verifiable Rewards、RLVR）で推論能力をさらに引き出す2段階パイプラインが標準的に使われています。

しかしこのアプローチには、見落とされがちな問題があります。SFTによって生じる「分布ドリフト」です。SFTは大量のデモンストレーションデータに過剰適合しやすく、訓練後のモデルは元のベースモデルが持っていた能力も、教師データの分布も、どちらも正確には再現できない中途半端な状態に陥ります。ベースモデルが強力であるほどこの歪みは大きくなる傾向があります。

マルチモーダル設定ではさらに複雑さが増します。テキストのみのタスクと異なり、画像の視覚的内容を正確に把握する「知覚エラー」と、その情報をもとに正しく論理を展開する「推論エラー」という、性質の異なる2種類の失敗が複合して発生するためです。単一の識別器ではこの2種類のエラーを同時に捉えることが難しく、既存手法では十分に対処できていませんでした。

図1: PRISMパイプラインの全体像。SFTが引き起こす分布ドリフト（a）、MoEディスクリミネータによる対抗的オンポリシー蒸留で分布を整列するステージ（b）、整列済みポリシーを初期値としたRLVR（c）の3段階構成

PRISMの3段階構成

PRISMは「Pre-alignment via Black-Box On-Policy Distillation for Multimodal RL」の略で、SFTとRLVRの間に専用の整列ステージを挿入する3段階パイプラインです。

第1段階のSFTでは、126万件の公開マルチモーダルデモンストレーションを使って基礎的な応答形式を学習させます。出力は「視覚説明（caption）」「推論トレース（think）」「最終解答（answer）」という3部構成で統一されており、後続ステージでの分析を容易にしています。

第2段階の分布整列が本論文の核心です。Gemini 3 Flashを使って生成した高品質なデモンストレーション11万3,000件を「監督分布」として活用し、SFT済みモデル（ポリシー）の出力との乖離をMoEディスクリミネータで計測・修正します。ここでの対抗ゲームは完全なブラックボックス方式で、教師モデルの内部ロジットにアクセスする必要がありません。これは既存の分布整列手法と比べて実装の制約を大幅に減らす利点があります。

第3段階のRLVRでは、分布が整列済みのポリシーを初期値として強化学習を実行します。ドリフトが修正された状態から学習を始めることで、RLアルゴリズムがより安定した探索を行えるようになります。

MoEディスクリミネータの仕組み

分布整列ステージの中心となるのが、知覚専門家（Dv）と推論専門家（Dr）の2つを持つMoE（Mixture of Experts、専門家の混合）ディスクリミネータです。知覚専門家は視覚説明の品質を、推論専門家は思考トレースの論理的整合性を、それぞれ独立して評価します。

2つの専門家のスコアは「r(x,y) = α・Dv(x,c) + (1-α)・Dr(x,t)」という形で統合され（αのデフォルト値は0.5）、ポリシーへの報酬として与えられます。ディスクリミネータの学習にはBradley-Terryロスを使い、監督分布の応答とポリシー出力を区別する能力を高めていきます。ポリシー側はこのスコアを最大化するようポリシー勾配法で更新されるため、監督分布に近づくほど報酬が増える仕組みです。

GRPOをはじめとするLLMアライメント技術と組み合わせることで、この整列済みポリシーがRLVRのより良い出発点となります。ロジット不要の設計は、外部の教師モデルへの依存をなくし、任意のマルチモーダルRLパイプラインへの組み込みを可能にしている点で実用性が高いといえます。

図2: 分布整列ステージのアーキテクチャ。知覚専門家と推論専門家を持つMoEディスクリミネータをBradley-Terryロスで学習し、ポリシーはMoEの統合報酬を最大化するようポリシー勾配法で更新される

実験結果

実験はQwen3-VL（4Bおよび8Bパラメータ）を対象に、GRPO・DAPO・GSPOという3種類のRLアルゴリズムとPRISMを組み合わせて実施されました。評価には数学的視覚推論を中心とした複数のベンチマークが用いられ、全評価ベンチマークの平均では、4Bモデルで+4.4ポイント、8Bモデルで+6.0ポイントの改善が確認されています。

下表は代表的な4ベンチマークでのPRISM+GRPOとSFT→GRPOベースラインとの比較です。

ベンチマーク	4Bモデル改善	8Bモデル改善
MathVista	+3.0pt	+2.3pt
MathVerse	+4.1pt	+4.4pt
MathVision	+9.9pt	+8.3pt
WeMath	+5.1pt	+6.7pt

特筆すべきなのは、改善がGRPOだけに限らない点です。DAPoおよびGSPOでも同様の安定した向上が確認されており、PRISMが特定のRLアルゴリズムに依存しない汎用的な事前整列手法であることが裏付けられています。

図3: 学習ダイナミクス。知覚専門家（左）と推論専門家（右）における監督分布とポリシー出力の報酬ギャップが、500〜900ステップで収束し整列が安定していることを示す

まとめと今後の展望

PRISMはSFTとRLVRの間に生じる分布ドリフトという、これまで十分に議論されてこなかった問題を正面から取り上げ、実用的な解決策を提示した研究です。知覚・推論を分離評価するMoEディスクリミネータと教師モデルへのアクセスを不要とするブラックボックス設計の組み合わせは、既存のパイプラインへの導入ハードルを低く抑えています。

コード・データ・モデルチェックポイントが公開されており再現性も確保されています。現時点での主な課題としては、高品質なデモンストレーションデータの生成コストや、整列ステージ追加による学習時間の増加が挙げられます。今後はより少ないデータでの効率的な整列や、言語系タスクへの適用範囲の拡張が研究の方向性として想定されます。