Warp-as-Historyとは？フリーズモデルで実現するゼロショットカメラ制御ビデオ生成

カメラ誘発ワープを「擬似履歴」に変換してビデオモデルの既存履歴パスに注入することで、モデルの重みを一切変えずにゼロショットのカメラ制御を実現する
単一のカメラアノテーション済み動画でLoRAファインチューニング（約1時間）を行うだけで、未知シーン・未知軌跡への汎化が可能な軽量学習設計を採用
WorldScoreのカメラ制御スコアを26.42から62.00へと134.7%改善し、数万規模の動画で学習した既存手法と競争力ある性能を1本の動画で達成

研究の背景と課題

ビデオ生成モデルが急速に発展するなか、生成映像のカメラアングルや軌跡を制御する技術は映像制作・VFX・ゲーム開発において重要な課題となっています。しかし従来の手法は、カメラの位置・向き情報（カメラアノテーション）が付与された大規模なデータセットを用いてモデルを追加学習させる必要がありました。

こうした手法は数万から数十万規模の動画データを要し、計算コストが高く、特定のモデルアーキテクチャに依存するため新しいモデルへの移植も容易ではありませんでした。専用のカメラエンコーダーを別途設計・学習する必要がある点も、実用上の障壁になっていました。

提案手法の全体像

本研究が提案する「Warp-as-History」は、カメラ制御をモデルの「視覚履歴（History）」として扱うシンプルかつ効果的な発想に基づいています。入力画像を3D再構成したうえで目標カメラ位置に投影した「カメラ誘発ワープ」を、ビデオモデルが通常処理する過去フレームの流れとして見立てて入力します。

図1: Warp-as-Historyの仕組み。カメラワープによる擬似履歴をターゲットフレームの位置と揃え、可視トークン選択を経てモデルの履歴ストリームに注入する

この手法の核心は3つのコンポーネントで構成されています。

カメラワープ擬似履歴の構築: 入力フレームから3D再構成を行い、目標カメラへの投影画像を生成して疑似的な過去フレームとして扱う
ターゲットフレーム位置合わせ: RoPE（回転位置エンコーディング）のインデックスをワープトークンに割り当て、対応するノイズ潜在変数と同じ時間位置を付与する
可視トークン選択: カメラ移動で新たに現れた領域や幾何推定の不確実な領域のトークンを除外し、モデル自身の生成能力に委ねる

重要なのは、事前学習済みビデオモデルの重みを一切変更しないという点です。カメラ制御情報は専用エンコーダーを介さず、モデルがもともと持つ履歴条件化の仕組みをそのまま活用します。

ゼロショットから1動画学習へ

図2: ゼロショット条件化から1動画ファインチューニングへの段階的改善。第1行が正解、第2行がカメラ誘発ワープ、第3行がゼロショット結果、第4行がLoRAファインチューニング後の結果

凍結（フリーズ）されたモデルでも、適切な位置合わせを行うだけでカメラ追従動作が自然と現れることが実験で確認されています。これは、事前学習済みの履歴条件化モデルがカメラ誘発の視覚的証拠を解釈する潜在能力をすでに内包していることを示唆しています。

さらに汎化性能を高めるため、1本のカメラアノテーション済み動画を用いてLoRA（低ランク適応）でモデルをファインチューニングする手法も提案されています。LoRAランク32を低解像度ステージのみに適用し、A800 GPU上で1000イテレーション（約1時間）という軽量な学習で効果を発揮します。テスト時の最適化や動画ごとの個別適応は一切不要です。

実験結果

WorldScore（静的シーン評価ベンチマーク）でのカメラ制御スコアは、テキストのみのベースラインが26.42であったのに対し、Warp-as-Historyは62.00を達成し、134.7%の改善を実現しました。主観的品質スコアも47.37から54.83へと向上しています。

動的前景を含むDAVISデータセットでは、カメラ追従誤差（R-Err）が2.97、PSNR 15.21、SSIM 0.3976という結果を示し、数万規模の動画で学習したGen3C・Voyager・ViewCrafterと競争力のある性能を発揮しました。アブレーション実験では、位置合わせなしの状態ではR-Errが7.33であったところ、可視性フィルタリング追加で4.37、完全実装で3.41と段階的に改善することが確認されています。

図3: 野生動画を用いた比較実験。左から順にカメラ誘発ワープ、正解映像、ViewCrafter、Gen3C、Voyager、Warp-as-Historyの結果

RefDecoderのように参照フレームを注入して動画品質を高めるアプローチは他の研究でも注目されており、Warp-as-Historyはその考え方をカメラ制御に特化して発展させた手法といえます。RealEstate10Kにおいても、大規模訓練なしでPSNR 17.15、SSIM 0.6214を達成しており、汎化性能の高さが裏付けられています。

まとめと今後の展望

Warp-as-Historyは、大規模なカメラデータセットや専用エンコーダーを必要とせず、既存のビデオ生成モデルをそのまま活用してカメラ制御を実現する実用的な手法です。1本の動画での軽量学習と高い汎化性能の組み合わせは、映像制作・VFX・ゲーム開発といった現場での実用性を高めます。

一方で、現状では3D再構成の精度に依存する部分もあり、視点が大きく変化する場面では視覚的なアーティファクトが生じる可能性があります。今後は、より高精度な深度推定との組み合わせや、動的シーンへの対応強化が研究の発展方向として考えられます。凍結モデルに潜在するカメラ制御能力を活用するという着眼点は、ビデオ生成研究に新たな方向性を示しています。