- 因果的な生成器と双方向識別器の「非対称」設計で、1ステップ動画生成での動きの崩壊と訓練の不安定性を同時に解消
- 分布マッチング蒸留(DMD)でウォームアップしてから敵対的洗練を行う3ステージ学習戦略が訓練の安定性を確保
- VBenchで1ステップ推論(1 NFE)ながら4ステップ推論の既存手法を上回り、320フレームの長尺動画でも被写体の一貫性を維持
研究の背景
動画生成モデルを実用的なアプリケーションに展開するうえで、推論コストは大きな障壁です。拡散モデル(Diffusion Model)ベースの動画生成では、高品質な動画を得るために数十回から数百回の推論ステップが必要で、リアルタイムや低遅延が求められる用途には向きません。
この課題を解決するアプローチのひとつが、推論ステップを1回に圧縮する「蒸留(distillation)」技術です。特に、生成器(Generator)と識別器(Discriminator)を対で学習させる「敵対的蒸留」は有力な手法として注目されていますが、既存手法には深刻な問題がありました。
生成器も識別器も同じ「因果的(causal)」アーキテクチャを使った場合、識別器は過去のフレームしか参照できないため、動画全体にわたる動きの劣化を見落としてしまいます。結果として、生成される動画は動きがほとんどない静的なものになる「動きの崩壊(motion collapse)」が発生しやすく、学習自体も不安定になるという問題がありました。
非対称アーキテクチャの設計
本論文が提案するAAD-1(Asymmetric Adversarial Distillation for One-step autoregressive video generation)は、生成器と識別器に意図的に異なるアーキテクチャを用いる「非対称」設計でこの問題を解決します。
生成器は従来どおり因果的な構造を保ちます。動画を先頭フレームから順番に生成する自己回帰サンプリングには因果性が不可欠なため、この設計は変更できません。一方、識別器には双方向(bidirectional)のAttentionを持つアーキテクチャを採用します。識別器は学習済み動画を事後的に評価するだけなので、因果性の制約を受けません。

双方向識別器では、双方向のDiT(Diffusion Transformer)ブロック内の学習可能なクエリトークンが動画シーケンス全体のコンテキストを集約し、単一のリアリズムスコアを出力します。これにより、複数フレームにわたってゆっくり進行する動きの崩壊や、長い動画での被写体のずれ(ドリフト)を確実に検出できます。識別器が動画全体の品質を適切に評価することで、生成器はより自然な動きを学習できるようになります。
3段階の学習パイプライン
AAD-1は、いきなり敵対的学習を行うのではなく、段階的に生成器の品質を高める3つのトレーニングステージを設計しています。

Stage I(ODE初期化)では、事前学習済みの双方向動画モデルのAttentionを因果的なAttentionに置き換え、Flow Matchingのロスで学習します。Diffusion Forcingという手法を用い、自己回帰生成に必要な因果構造を持つ初期モデルを構築します。
Stage II(DMDウォームアップ)では、「分布マッチング蒸留(Distribution Matching Distillation、DMD)」を適用します。実データと生成データの分布のスコア差をマッチングさせることで、1ステップで生成した動画の分布を教師モデルの分布に近づけます。わずか100ステップで早期停止することで過剰な適合を防ぎつつ、次の敵対的学習の良い出発点を作ります。
Stage III(非対称敵対的洗練)が本手法の核心です。因果的な生成器を双方向識別器と対戦させながら洗練させます。Stage IIで良い初期点を得ているため敵対的学習が安定して進み、動きの崩壊なく高品質な動画生成が実現します。
実験結果と比較
VBenchベンチマークにおいて、AAD-1は1ステップの推論(1 NFE)で、コスト4倍の4ステップ推論(4 NFE)を行う既存の自己回帰ベースラインを大幅に上回りました。比較対象のCausVidの被写体一貫性スコアが83.45であるのに対し、AAD-1は94.34を達成しています。また、I2V(画像から動画)の被写体忠実度でも98.65という高い数値を記録しました。

実際のユーザーによる選好評価でも、AAD-1はSelf ForcingやCausVidに対して過半数の支持を得ました。定性的な比較でも、既存手法が長い動画で被写体の形状が崩れていくのに対し、AAD-1は320フレームの長尺動画でも被写体の同一性を保ちながら自然な動きを生成できていることが確認されています。
アブレーション実験からは、識別器のアーキテクチャ設計の重要性が明確に示されました。因果バックボーン+フレームごとのスコアという設定では動画が完全に静的になる(動的スコア1.08)のに対し、双方向バックボーン+ビデオレベルのスコアの組み合わせが最も優れたドリフト低減効果を示しています。DMDウォームアップを省いた場合も、美的品質と画像品質が大幅に低下することが確認されました。
まとめと今後の展望
AAD-1は、生成器と識別器の役割の違いに着目した非対称設計と、分布マッチングを先行させる段階的な学習戦略の組み合わせで、1ステップ自己回帰動画生成の品質を大きく前進させました。ICML 2026に採択された本研究は、動画生成の推論コスト削減という実用的な課題に技術的な根拠をもって応えています。
長尺動画の安定生成という観点では、学習可能な進化型メモリで無限長動画を生成するEcho-Infinityのようなアプローチとの組み合わせも、将来的な研究方向として興味深いです。1ステップ生成の高速性と長期間の一貫性を両立させる基盤技術として、動画生成の実用化をさらに加速する可能性があります。
