SwiftI2Vとは？2K動画生成をRTX 4090で202倍高速化するCSGフレームワーク

2K解像度のI2V生成でVBench-I2Vスコア6.4244を記録し、CineScaleやLTX-2を上回りながら総GPU処理時間を202倍削減
CSG（セグメント単位条件付き生成）がトークン予算を固定上限で管理し、RTX 4090（24GB）で241フレームの2K動画もピークメモリ24GB以内に収める
双方向コンテキスト相互作用でセグメント間の誤差蓄積を防ぎ、エンドツーエンドモデルと同等の時間的一貫性と入力忠実度を両立

高解像度動画生成の課題

拡散モデルを用いたImage-to-Video（I2V）生成は急速に進歩していますが、2K（2560×1408）などの超高解像度では依然として大きな制約があります。Diffusion Transformer（DiT、拡散変換器）は解像度の2乗に比例してトークン数が増えるため、メモリと計算コストが急膨張する問題があります。

既存の対処策として、低解像度で動画を生成してから後処理で超解像化するアプローチがあります。しかしこの方法では入力画像の細部を十分に再現できず、細かいテクスチャや構造が失われがちです。SwiftI2Vはこの2つの課題、すなわち「計算コストの爆増」と「超解像化時の忠実度低下」を同時に解決するフレームワークとして提案されています。

SwiftI2Vの2段階構成

SwiftI2Vは役割を分担した2段階フレームワークを採用しています。Stage Iでは入力画像を360P（640×352）にダウンサンプリングし、Wan2.1-I2V-480PとLoRA（低ランク適応）を組み合わせた大型DiTで低解像度の「動きリファレンス」を4ステップで生成します。動画全体の動きの骨格をここで定義します。

Stage IIでは、Stage Iの出力を2KにアップスケールしたものとVAE（変分オートエンコーダ）潜在空間上の入力高解像度画像をチャネル方向で連結します。入力画像の第1フレームをそのまま置換する「ハイブリッド参照」を構築することで、小型のDiTが動きの再モデリングではなく高解像度テクスチャの忠実な合成に専念できる設計です。

図2: SwiftI2Vの全体像。Stage Iが低解像度の動きリファレンスを生成し、Stage IIがその情報と入力高解像度画像を組み合わせてセグメント単位で2K動画を合成する

CSGとは？セグメント単位生成の仕組み

Stage IIの中核技術がConditional Segment-wise Generation（CSG、セグメント単位条件付き生成）です。動画全体を一度にDiTへ入力すれば解像度に比例してトークン数が爆増しますが、CSGでは動画を時間方向にM個のフレームからなる非重複セグメントに分割します。

各ステップでは「アンカーブロック（第1フレーム）+ 直前N個のセグメントブロック + 現在のセグメント」だけをAttention計算の対象とするため、トークン予算が固定上限に制御されます。デフォルト設定（M=3、N=1）では21フレームの動画を7セグメントに分割し、各セグメントで4ステップのノイズ除去を実行します。

ここで重要なのが双方向コンテキスト相互作用です。従来の自己回帰型アプローチでは過去のセグメントは固定された参照としてのみ機能しますが、SwiftI2Vではアンカーブロック・近傍ブロック・現セグメントの3者が双方向に情報を交換します。更新は現セグメントのみに適用され、過去のブロックは不変に保たれます。これにより誤差の蓄積を大幅に抑制し、セグメントをまたいだ映像の一貫性が維持されます。

図3: CSGの処理フロー。アンカーブロック・近傍ブロック・現セグメントが双方向に情報を交換することで、一方向的な自己回帰型では起こりやすい誤差蓄積を防ぐ

実験結果とスケーラビリティ

VBench-I2Vベンチマークの2K解像度評価では、SwiftI2VはCineScale（6.3638）、LTX-2（6.3579）、DiffVSR（6.4228）を上回る総合スコア6.4244を達成しました。速度面ではH800 1枚で111秒、RTX 4090（24GB）でも約380秒で2K動画の生成が可能です。4枚のH800で5600秒を要するCineScaleと比較すると、GPU処理時間は202倍削減されています。

スケーラビリティの観点では、CSGによってピークGPUメモリは241フレーム時点でも24GB以下に維持され、処理時間はフレーム数にほぼ線形で増加します。CSGを取り除くとメモリと処理時間が急増し、コンシューマーGPUでの運用が不可能になることがアブレーション研究で確認されています。同じ動画生成領域ではストリーミング動画生成の改善を目指すStream-R1のような研究もありますが、SwiftI2Vはオフライン高解像度生成の効率化に特化したアプローチです。

図7: フレーム数に対するGPUメモリ（左）と処理時間（右）のスケーリング比較。CSGなしではフレーム増加とともに急増するが、CSGありでは24GB以内に収まりほぼ線形に増加する

アブレーション研究の知見

双方向コンテキスト相互作用を削除すると、VBench-I2V総スコアは6.392に低下します。因果マスクのみのアプローチでは後方セグメントへの誤差蓄積が明確に確認されており、双方向設計の有効性が裏付けられています。また「Stage転移訓練」（セグメント境界の滑らかさを学習するための専用訓練）を省略すると、Stage Iで生じたアーティファクトが後段まで持続することも示されました。

VAEの再構成精度についても分析されており、高解像度になるほどLPIPS（知覚的類似度指標）が悪化する傾向が確認されています。これはVAEが学習時の解像度範囲外での汎化に限界があることを示すものであり、今後の改善課題として明示されています。