- NVFP4(4bit浮動小数点)を訓練・推論の全工程に適用し、長時間動画生成の訓練を最大2.15倍、推論を最大1.84倍に高速化
- Balanced SP(バランス調整済みシーケンス並列)でGPU間の負荷を均等に分散し、5Bパラメータのモデルで45.7 FPSのリアルタイム生成を実現
- コード・重みがGitHubで公開されており、再現性が高い
研究の背景
長時間の動画をAIで生成しようとすると、二つの大きな壁にぶつかります。一つはメモリ不足、もう一つは処理速度の遅さです。動画はフレームが積み重なるほどデータ量が膨らみ、1枚のGPUでは扱いきれなくなります。
これを解決するために複数のGPUへ処理を分散する手法(シーケンス並列、テンソル並列など)が存在しますが、従来の分散方式には大きな偏りがありました。動画の自己回帰(AR)生成では「過去のクリーンなフレーム」と「生成中のノイジーなフレーム」を一つのシーケンスとして扱います。この構造のせいで、損失計算の負荷がGPUによって著しく異なり、最も遅いGPUに全体の処理速度が引っ張られてしまっていました。
さらに、生成した動画をピクセルに変換するVAE(変分自己符号化器)のエンコード処理が各GPUで重複して走るという無駄もありました。NVIDIAのBlackwell世代GPUが対応するNVFP4(4bitフォーティング精度)は行列演算を大幅に高速化できますが、動画生成の訓練・推論に全面適用した事例はありませんでした。
提案手法
LongLive-2.0は、この問題を「訓練インフラ」と「推論インフラ」の両面から解決します。

訓練側の核心はBalanced SP(バランス調整済みシーケンス並列)です。従来の方式では損失計算を担うノイジーなトークンが一部のGPUに偏りましたが、Balanced SPはクリーンな履歴フレームとノイジーな生成対象フレームの時間チャンクを同じGPUが担うよう設計し直しました。これにより損失計算の負荷がGPU全体に均等に分散され、VAEエンコードの重複処理も排除されます。

NVFP4はこのBalanced SPと独立して組み合わせられます。4bit精度の行列演算(GEMM)はGPUメモリ消費を減らしつつ計算スループットを上げるため、長い動画シーケンスを扱う際に特に効果的です。重要なのは、ポストトレーニング量子化(PTQ)ではなく、最初からNVFP4精度で訓練する「Pre-trained NVFP4」を採用している点です。PTQでは顔の目がぼやけるなど品質劣化が起きますが、事前訓練型NVFP4ではこれを防げます。
推論側では、W4A4(重みも活性化も4bit)のNVFP4推論、KVキャッシュの量子化、そして非同期VAEデコーディングを組み合わせます。非同期デコーディングは、動画の生成(デノイジング)とピクセルへの変換(VAEデコード)を並行して走らせることでアイドル時間をなくし、スループットを最大化する仕組みです。

パイプライン全体の設計もシンプルさを重視しています。Warp-as-Historyのような従来のカメラ制御手法と比べ、LongLive-2.0はODE初期化や中間的な分布マッチング蒸留(DMD)を必要としません。双方向拡散モデルをベースに直接AR訓練を行い、スタンドアロンのLoRAを注入するだけで少ステップ推論が可能になります。
実験結果
4台のNVIDIA GB200 GPUを使った訓練実験では、Balanced SPがシーケンス長が長くなるほどテンソル並列やデータ並列より速く、かつメモリ効率が高いことが確認されました。
速度の数値は次のとおりです。訓練全体で最大2.15倍の高速化、推論全体で最大1.84倍の高速化を達成しています。5BパラメータのモデルはGB200上で45.7 FPSという推論速度を記録し、リアルタイムに近い長時間動画生成が実現しました。
映像品質の面では、PTQと比べてPre-trained NVFP4が顔の細部(目など)を明確に保持できることが視覚的に示されました。また、マルチショット生成(複数シーンをまたぐ動画生成)ではAttention Sinkを使ってショット間の外観ドリフトを防ぐことも確認されています。
まとめと今後の展望
LongLive-2.0は、長時間動画生成の「遅い・重い」という課題を、並列訓練の設計改善と低ビット精度の全面適用という2つのアプローチで同時に解決した研究です。NVIDIAのBlackwell世代GPUに特化したNVFP4を訓練から推論まで一貫して使う点は、ハードウェアとアルゴリズムを合わせて最適化するNVIDIAならではのアプローチといえます。
コードと重みがGitHubで公開されているため、研究者やエンジニアが実際に試せる点も強みです。今後はBlackwell以外のGPUアーキテクチャへの対応や、さらに長いシーケンス・高解像度への拡張が課題になるでしょう。リアルタイム動画生成の閾値を超えたことで、インタラクティブな動画生成アプリケーションへの応用が一段と現実的になりました。
