Stream-R1とは？信頼性と複雑度を考慮した報酬蒸留でストリーミング動画生成を向上させる新手法

ロールアウト信頼性（Inter-Reliability）と空間・時間的複雑度（Intra-Perplexity）を単一の報酬モデルで統合制御する新しい報酬蒸留フレームワーク
アーキテクチャ変更・推論オーバーヘッドなしで全ベンチマーク指標においてReward Forcingを上回る品質を実現
長時間動画（最大180秒）でも品質低下を抑制し、60秒動画で視覚品質・動的妥当性ともに人間評価60%超の勝率を記録

研究の背景

近年、動画生成モデルの高速化手法として分布マッチング蒸留（Distribution Matching Distillation、DMD）が注目を集めています。DMDは、多ステップの拡散モデルをより少ないステップで動作する学生モデルに蒸留する手法で、推論速度を大幅に短縮できます。

自己回帰型ストリーミング動画拡散モデルでは、フレームを逐次生成するロールアウト（rollout）と呼ばれる処理単位が存在します。従来のDMDはすべてのロールアウトを均等に扱い、空間的・時間的な各領域にも一律の最適化強度を適用していました。この「一律処理」が生成品質の上限を制限していると、Stream-R1の著者らは指摘しています。

実際のロールアウトには、報酬モデルのスコアが高い信頼性の高いものと低いものが混在します。UniVidXのような動画生成の多面的な品質制御が示すように、動画の空間・時間的な品質を細かく制御することは複雑な課題です。Stream-R1はこの問題に報酬モデルを軸とした新しいアプローチで挑んでいます。

DMD蒸留の2つの課題

Stream-R1が解決を目指す問題は、2つの「分散の軸」として整理されています。

第1の軸はInter-Reliability（ロールアウト間の信頼性差異）です。あるロールアウトでは報酬モデルが高スコアを付ける一方、別のロールアウトでは低スコアになります。従来のDMDはこの差異を無視してすべてを均等に学習するため、信頼性の低い監督信号がノイズとして学習に混入してしまいます。

第2の軸はIntra-Perplexity（ロールアウト内の空間・時間的複雑度差異）です。同一ロールアウトの中でも、ブレが大きいフレームの下半分など「改善効果が期待できる領域」と、すでに高品質な領域が混在します。従来手法はこれも一律に扱うため、最適化リソースが効率的に配分されません。

図1: Stream-R1の提案動機。（a）DMDの監督信号はロールアウト間の信頼性差異（Inter-Reliability）と、各ロールアウト内の空間・時間的複雑度差異（Intra-Perplexity）という2つの分散軸を持つ。（b）従来のDMDは全ロールアウト・全領域を均等に扱う。（c）Stream-R1は単一の報酬モデルで信頼性の高いロールアウトを優先し、改善効果が大きい領域に最適化圧力を集中させる。

Stream-R1の提案手法

Stream-R1は、2つの課題を単一の報酬モデルで統合的に対処します。損失関数は2段階の重み付けで変更されています。

まず、Inter-Reliability重み（W_inter）として、報酬モデルのスコアを指数関数的に変換したスカラー値を各ロールアウトに掛け合わせます。これにより、報酬スコアが高い（信頼性の高い）ロールアウトの学習信号が相対的に強化されます。

次に、Intra-Perplexity重み（W_intra）として、同じ報酬モデルを逆伝播させて得られるピクセル単位の勾配顕著性マップを使用します。視覚品質（VQ）、動き品質（MQ）、テキスト整合性（TA）の3軸の顕著性を組み合わせて統合マップを生成し、空間方向と時間方向に分解することで各フレーム・各ピクセルの最適化強度を決定します。最終的な損失はこの2つの重みを組み合わせた形式 L = W_inter · (W_intra ⊙ L_DMD) で表されます。

図2: Stream-R1の全体構成。（a）学生モデルのロールアウトをDMDネットワークとStream R1モジュールでスコアリングし、Inter-Reliability重みとIntra-Perplexity重みで蒸留信号を調整する。（b）報酬スコア抽出、（c）適応的勾配顕著性統合、（d）空間・時間分解の各ステップを単一の報酬モデルが駆動する。

実験結果

Stream-R1の性能は、短動画・長動画の両設定で評価されています。短動画（標準ベンチマーク、VBench 946プロンプト）では、総合スコア84.40を記録し、ベースラインのReward Forcingに対して全指標で優位を示しています。教師モデルであるWan2.1（スコア84.26）さえも上回る結果であり、蒸留でありながら元モデルを超える品質を達成しています。

長動画生成においても効果は明確です。60秒動画のVLM（視覚言語モデル）評価では視覚品質4.92、テキスト一致4.11を記録し、Reward Forcing（4.82、4.04）を上回りました。人間評価でも動的妥当性63.0%、視覚品質60.0%の勝率でReward Forcingに対する優位性を確認しています。

動画が長くなるほど性能差が拡大する傾向も観察されています。120秒・180秒の動画では6指標すべてでStream-R1がReward Forcingを一貫して上回り、長い自己回帰ロールアウトで蓄積される品質劣化を空間・時間的報酬誘導重み付けが効果的に抑制していることが示されています。