AnyFlowとは？任意ステップ対応の動画拡散蒸留でテスト時スケーリングを実現する新手法

エンドポイント一貫性写像をフローマップ遷移学習に置き換えることで、ステップ増加とともに品質が向上し続けるテスト時スケーリングを実現
Flow Map Backward SimulationによるOn-Policy蒸留で、離散化誤差とExposure Biasを同時に削減
1.3Bから14BパラメータおよびBidirectionalとCausalの両アーキテクチャで検証済み、コードと事前学習モデルを即日公開

研究の背景

テキストや画像から動画を生成する拡散モデルは高品質な出力を実現していますが、推論に多くの計算ステップを要するため、リアルタイム用途での活用が難しいという課題があります。この問題に対して、拡散モデルの出力を少ないステップで再現する「蒸留（Distillation）」技術が研究されてきました。

代表的な手法がConsistency Distillation（一貫性蒸留）です。ノイズが乗った潜在変数 z_t から最終的な生成結果 z_0 へ直接マッピングを学習することで、1〜数ステップで動画を生成できます。SwiftI2Vのように独自フレームワークで動画生成を高速化する研究も活発に進む中、Consistency Distillationは広く採用されてきました。

しかしこの手法には根本的な弱点があります。推論ステップを増やすほど品質が低下してしまうという問題です。一般に拡散モデルは多くのステップを使うほど精密な結果を生成できる「テスト時スケーリング」の特性を持ちます。Consistency Distillationはこの利点を捨てることで高速化を達成していたため、計算を増やしても品質が改善されないという限界を抱えていました。NVIDIAらの研究チームはこの問題を解決するフレームワーク「AnyFlow」を提案しています。

フローマップ蒸留とは

AnyFlowの核心は、蒸留で学習する対象を根本から変えることにあります。従来のConsistency Distillationが「ノイズ状態 z_t から最終生成結果 z_0 への直接マッピング」を学習していたのに対し、AnyFlowは「任意の中間状態 z_t から別の中間状態 z_r へのフローマップ遷移」を学習します。

この違いは一見小さく見えますが本質的な差があります。z_0 への直接マッピングは元のODE（常微分方程式）軌跡を無視する「近道」を作るため、ステップを増やしてもその近道から外れられません。一方、z_t から z_r への遷移学習はODE軌跡に沿った短いセグメントを積み重ねる形になるため、ステップ数を増やすほど軌跡をより精密にたどれます。

この設計変更によってAnyFlowは、より多くのステップを使えば使うほど品質が向上するテスト時スケーリングの特性を取り戻せます。少ないステップ数での品質は従来のConsistency Distillationと同等以上を維持しているため、速度と品質の両方を状況に応じて選択できる点も実用上の利点です。

オンポリシー蒸留の仕組み

フローマップ蒸留のもう一つの重要な要素が、学習方法の工夫です。蒸留モデルを訓練する際には2つの問題が生じます。ひとつは「離散化誤差（Discretization Error）」で、有限のステップ数で連続的な軌跡を近似する際に生じるずれです。もうひとつは「Exposure Bias」で、学習時と推論時の入力分布がずれることで性能が落ちる問題です。

AnyFlowはこれらを「Flow Map Backward Simulation」という手法で解決します。フルのEulerロールアウト（全ステップでの数値積分）を短いフローマップ遷移に分解することで、学習中に蒸留モデル自身の出力を使ったオンポリシー（On-Policy）な蒸留を実現します。蒸留モデルが学習中に経験する入力分布が推論時のものに近くなるため、Exposure Biasが解消されます。また軌跡を短いセグメントに分解することで離散化誤差も同時に削減できます。

実験での検証結果

AnyFlowは幅広いモデル構成で有効性を検証しています。パラメータ規模は1.3Bから14Bまでをカバーしており、実用的な規模での動作を確認しています。アーキテクチャについても、Bidirectional（双方向）TransformerとCausal（因果的）Transformerの両方に対応しており、異なる設計方針のモデルで汎用的に使えます。タスクはテキストから動画を生成するT2Vだけでなく、画像から動画を生成するI2VやV2Vにも対応します。

性能面では、少ないステップ数（4〜8ステップ）での動画品質においてConsistency Distillationと同等以上を実現しつつ、ステップ数を増やすと品質が継続して向上します。最終的にはティーチャーモデル（元の多ステップ拡散モデル）を上回る品質に達することが示されています。

また蒸留後のモデルでも、フローマップの細粒度な特性を活かして下流タスク向けのファインチューニングが可能であることも実証されています。特定のスタイルやドメインに特化したモデルを作る際も、高速サンプリングの恩恵を維持したままチューニングできます。

まとめと今後の展望

AnyFlowはConsistency Distillationが抱えていた「ステップ増加で品質が低下する」問題に対して、フローマップ遷移学習という概念的にシンプルな解決策を提示しました。蒸留の対象をz_0への写像からz_rへの遷移に変えるだけで、テスト時スケーリングという拡散モデル本来の利点を取り戻せることを示した点は意義深いです。

コードと事前学習モデルは論文と同日に公開されており、再現実験がすぐに行える状態です。動画生成の実用化において、品質と速度のトレードオフをステップ数で自由に調整できるフレームワークは実用上の価値が高く、今後の動画生成モデル研究にも影響を与えることが予想されます。一方で、フローマップ遷移の学習安定性や、極めて少ないステップ（1〜2ステップ）での品質については今後の改善余地が残されています。