Mirageとは？潜在空間3Dメモリで動画ワールドモデルを10倍高速化する新フレームワーク

深度推定による逆投影でVAE潜在トークンを3D空間に持ち上げ、ピクセル空間の再エンコード処理を廃した「潜在空間メモリ」を初提案
従来のRGBポイントクラウドベースラインと比べ、推論速度10.57倍・GPUキャッシュメモリ55倍削減を同時に達成
動画ワールドモデル評価ベンチマークWorldScoreで総合70.36の最高スコアを記録し、閉ループ視点再訪テストでもSoTAを更新

研究の背景

動画ワールドモデルとは、与えられた初期フレームからカメラ視点を自由に操りながら新たな映像を生成するシステムです。自動運転やロボット制御、ゲームの仮想空間など幅広い応用が期待されていますが、長時間・広範囲の一貫したシーン生成には「過去の視覚情報をどう保持・参照するか」という課題が残っていました。

従来の有力な解決策は、生成済みフレームをRGBポイントクラウド（色付き点群）として3D空間に蓄積し、次の生成ステップで再利用する方法です。しかしこの方式には根本的な問題があります。毎フレームの条件付けのたびに点群をラスタライズ（2D画像に変換）し、さらにVAE（変分オートエンコーダ：画像を低次元の潜在表現に圧縮するモジュール）エンコーダに通して潜在特徴に変換し直す処理が必要で、計算量とメモリ消費が際限なく増加してしまうのです。

浙江大学・Microsoft Research・アデレード大学・モナシュ大学の研究チームは、この「ピクセル空間を往復する無駄」に着目し、新たなフレームワークMirageを提案しました。

潜在空間メモリとは何か

図2: RGBポイントクラウドメモリ（上）と潜在空間メモリ（下）の比較。従来手法は毎ステップごとにラスタライズとVAEエンコードを繰り返すのに対し、Mirageは潜在特徴を3D座標に直接紐付けて保持することでこの往復処理を排除する。

Mirageの核心は「潜在空間メモリ（Latent Spatial Memory）」という3Dキャッシュ機構にあります。アイデアはシンプルです。RGBのピクセル値ではなく、VAEが圧縮した潜在特徴トークンそのものを3D世界座標に結びつけて保存するというものです。

こうすることで、新しい視点からシーンを参照するときに必要な処理は「潜在解像度での1回の投影」だけになります。従来の「点群のラスタライズ → VAE再エンコード」という2段階の変換が丸ごと不要になり、キャッシュサイズもVAEの空間圧縮率（16×16）の2乗分だけ小さくなります。

Mirageの仕組み

図3: Mirageのシステム全体図。初期フレームをVAEエンコードして3D潜在キャッシュを構築し、各ターゲット視点では潜在解像度の投影でキャッシュを読み出しながらチャンクごとに映像を生成・拡張していく。

パイプラインは3つのフェーズに分かれます。

初期化: 第1フレームをVAEでエンコードし、深度推定モデルでピクセルごとの奥行きを算出。各潜在トークンをカメラ逆投影で3D空間座標に配置してキャッシュを初期化する
読み出し: 新しいカメラ視点が与えられるたびに、キャッシュ内の3D特徴を潜在解像度でレンダリングして条件特徴マップを生成する。ラスタライズもVAEエンコードも不要
拡張: 生成されたチャンクを深度推定 → VAEエンコード → 3D逆投影の手順でキャッシュに追記し、未見領域を徐々に埋めていく

バックボーンには動画生成モデルWan2.2-TI2V-5B（50億パラメータ）を使用し、ControlNetスタイルの条件付け分岐を先に学習させ、次にLoRA（低ランク適応）で微調整する2段階学習で効率よく適応させています。また、動く物体を動的領域フィルタで検出してキャッシュへの書き込みを抑制する仕組みも組み込まれており、背景の静的構造だけを正確に蓄積できます。

実験結果

図5: ロールアウト進行に伴うキャッシュ読み出し時間（左）とピークキャッシュサイズ（右）の比較。Mirageは1フレーム0.25秒・数百MiB未満で安定する一方、RGBキャッシュベースラインは時間もメモリも桁違いに増加する。

効率性の検証はNVIDIA H100上で5チャンクのオートリグレッシブロールアウトを計測しました。RGBキャッシュベースラインのSpatia・Gen3Cと比べて、1フレームあたりの処理時間が最大10.57倍速く、ピークキャッシュサイズが55倍以上小さいことが確認されています。Mirageは最初のチャンクで初期化コストを払ったあとは1フレーム0.25秒・チャンクあたり0.5MiB未満の増加で安定します。

品質面では、動画ワールドモデルの総合評価ベンチマークWorldScoreで平均70.36・3D一貫性92.21・光度的一貫性93.95を記録し、比較手法の中で最高スコアを達成しました。閉ループテスト（カメラが出発点に戻る軌跡）でもPSNR 20.05・SSIM 0.825でトップとなり、長距離移動後も視覚的な整合性が保たれることが示されました。

訓練はRealEstate10K（屋内不動産映像）のみで行われましたが、屋外・自然シーンへの汎化にも成功しています。深度推定器の種類についても、DepthAnything 3・MapAnything・UniDepthなど複数のモデルで競争力のある性能を維持しており、特定ツールへの依存度が低い点も実用上の強みです。

アブレーション研究

各コンポーネントの貢献をWorldScoreで定量比較すると、潜在空間メモリをRGBポイントクラウドに置き換えると平均スコアが70.36から67.71へ低下しました。動的オブジェクトフィルタを外すと61.20まで大幅に落ち込み、2段階学習を1段階に減らした場合も63.18にとどまりました。各コンポーネントが有機的に機能していることが数値で裏付けられています。

限界と今後の展望

動的オブジェクトフィルタはキャッシュへの書き込みを抑制するだけなので、移動する物体の状態は時間とともに追跡されません。往来の多い街中など動きの多いシーンでは、動的コンテンツの長期一貫性に制約があります。この点は論文でも今後の課題として明示されています。

長期記憶の管理という観点では、MemDreamerが階層グラフメモリで長時間動画理解の精度を改善した手法との組み合わせも将来的な発展方向として考えられます。潜在特徴を3D座標に直接結びつけるという設計思想は汎用性が高く、動画生成にとどまらず3D表現学習やロボットの世界モデルへの応用も期待されます。コードも公開されており、再現・発展研究が進みやすい環境が整っています。