AAD-1とは？非対称敵対的蒸留で自己回帰動画生成を1ステップ化する新手法

因果的な生成器と双方向識別器の「非対称」設計で、1ステップ動画生成での動きの崩壊と訓練の不安定性を同時に解消
分布マッチング蒸留（DMD）でウォームアップしてから敵対的洗練を行う3ステージ学習戦略が訓練の安定性を確保
VBenchで1ステップ推論（1 NFE）ながら4ステップ推論の既存手法を上回り、320フレームの長尺動画でも被写体の一貫性を維持

研究の背景

動画生成モデルを実用的なアプリケーションに展開するうえで、推論コストは大きな障壁です。拡散モデル（Diffusion Model）ベースの動画生成では、高品質な動画を得るために数十回から数百回の推論ステップが必要で、リアルタイムや低遅延が求められる用途には向きません。

この課題を解決するアプローチのひとつが、推論ステップを1回に圧縮する「蒸留（distillation）」技術です。特に、生成器（Generator）と識別器（Discriminator）を対で学習させる「敵対的蒸留」は有力な手法として注目されていますが、既存手法には深刻な問題がありました。

生成器も識別器も同じ「因果的（causal）」アーキテクチャを使った場合、識別器は過去のフレームしか参照できないため、動画全体にわたる動きの劣化を見落としてしまいます。結果として、生成される動画は動きがほとんどない静的なものになる「動きの崩壊（motion collapse）」が発生しやすく、学習自体も不安定になるという問題がありました。

非対称アーキテクチャの設計

本論文が提案するAAD-1（Asymmetric Adversarial Distillation for One-step autoregressive video generation）は、生成器と識別器に意図的に異なるアーキテクチャを用いる「非対称」設計でこの問題を解決します。

生成器は従来どおり因果的な構造を保ちます。動画を先頭フレームから順番に生成する自己回帰サンプリングには因果性が不可欠なため、この設計は変更できません。一方、識別器には双方向（bidirectional）のAttentionを持つアーキテクチャを採用します。識別器は学習済み動画を事後的に評価するだけなので、因果性の制約を受けません。

図2: 識別器アーキテクチャの比較。(a)因果バックボーン+フレームごとのスコアは局所的なフィードバックしか得られず、(b)因果バックボーン+ビデオレベルのスコアでも時間的な文脈が不足する。(c)双方向バックボーン+ビデオレベルのスコア（AAD-1）が全時空間にわたる動きの劣化を検出できる。

双方向識別器では、双方向のDiT（Diffusion Transformer）ブロック内の学習可能なクエリトークンが動画シーケンス全体のコンテキストを集約し、単一のリアリズムスコアを出力します。これにより、複数フレームにわたってゆっくり進行する動きの崩壊や、長い動画での被写体のずれ（ドリフト）を確実に検出できます。識別器が動画全体の品質を適切に評価することで、生成器はより自然な動きを学習できるようになります。

3段階の学習パイプライン

AAD-1は、いきなり敵対的学習を行うのではなく、段階的に生成器の品質を高める3つのトレーニングステージを設計しています。

図3: AAD-1のトレーニングパイプライン。Stage IのODE初期化から始まり、Stage IIの分布マッチング蒸留（DMDウォームアップ）、Stage IIIの非対称敵対的洗練へと進む3段階の学習戦略。

Stage I（ODE初期化）では、事前学習済みの双方向動画モデルのAttentionを因果的なAttentionに置き換え、Flow Matchingのロスで学習します。Diffusion Forcingという手法を用い、自己回帰生成に必要な因果構造を持つ初期モデルを構築します。

Stage II（DMDウォームアップ）では、「分布マッチング蒸留（Distribution Matching Distillation、DMD）」を適用します。実データと生成データの分布のスコア差をマッチングさせることで、1ステップで生成した動画の分布を教師モデルの分布に近づけます。わずか100ステップで早期停止することで過剰な適合を防ぎつつ、次の敵対的学習の良い出発点を作ります。

Stage III（非対称敵対的洗練）が本手法の核心です。因果的な生成器を双方向識別器と対戦させながら洗練させます。Stage IIで良い初期点を得ているため敵対的学習が安定して進み、動きの崩壊なく高品質な動画生成が実現します。

実験結果と比較

VBenchベンチマークにおいて、AAD-1は1ステップの推論（1 NFE）で、コスト4倍の4ステップ推論（4 NFE）を行う既存の自己回帰ベースラインを大幅に上回りました。比較対象のCausVidの被写体一貫性スコアが83.45であるのに対し、AAD-1は94.34を達成しています。また、I2V（画像から動画）の被写体忠実度でも98.65という高い数値を記録しました。

図4: 定性比較。泳ぐクラゲの画像を条件に動画を生成した例。AAD-1は最大320フレームにわたって被写体の同一性を保ちながら自然な動きを合成できる。既存手法（CausVid、Self Forcing）では被写体のドリフトが発生している。

実際のユーザーによる選好評価でも、AAD-1はSelf ForcingやCausVidに対して過半数の支持を得ました。定性的な比較でも、既存手法が長い動画で被写体の形状が崩れていくのに対し、AAD-1は320フレームの長尺動画でも被写体の同一性を保ちながら自然な動きを生成できていることが確認されています。

アブレーション実験からは、識別器のアーキテクチャ設計の重要性が明確に示されました。因果バックボーン+フレームごとのスコアという設定では動画が完全に静的になる（動的スコア1.08）のに対し、双方向バックボーン+ビデオレベルのスコアの組み合わせが最も優れたドリフト低減効果を示しています。DMDウォームアップを省いた場合も、美的品質と画像品質が大幅に低下することが確認されました。