MoVerseとは？1枚の写真からリアルタイムで歩き回れる3Dシーン生成

1枚の狭視野写真をトポロジー対応拡散モデルで360°パノラマに変換し、3D Gaussian Scaffold で空間を再構成する三段階パイプラインを提案
双方向拡散モデルから因果自己回帰モデルへの知識蒸留により、RTX 4090単体で8 FPS のリアルタイムインタラクティブ動画生成を実現
VR/AR・ゲーム・ロボティクスへの応用を想定し、消費者向けGPU1枚で動作するリアルタイム実装を公開

研究の背景

写真1枚から3D空間を自由に歩き回れる映像を生成する技術は、VRゲームや建築可視化、ロボットシミュレーションなど幅広い分野で長らく求められてきました。しかし従来の手法は、高品質なシーン生成のために多数の視点画像や専用の3Dスキャン機材を必要とし、一般のユーザーが手軽に利用できる状況ではありませんでした。

また、動画生成モデルが進化してもリアルタイム性の確保は難しく、生成品質とインタラクティブ性を同時に達成する手法はほとんどありませんでした。MoVerse（モバース）はこの二律背反に正面から取り組み、スマートフォンで撮影した1枚の狭視野画像だけから、ユーザーが任意のカメラ軌跡に沿って動き回れる動画シーンをリアルタイムで生成することを実現した研究です。2026年6月に発表されたこの手法は、パノラマ拡張・3D空間再構成・高速レンダリングを三段階で組み合わせた点に新規性があります。

三段階パイプラインの仕組み

MoVerse の処理は大きく3つのステップで構成されています。

第1段階：トポロジー対応パノラマ拡張。入力画像は通常、カメラの画角に限定された狭い範囲しか映していません。この段階では「位相保存拡散（topology-aware diffusion）」と呼ばれる技術を使い、周囲360°のパノラマ画像を補完生成します。球面画像の左右端が自然につながるよう設計されており、継ぎ目のない全天球映像が得られます。

第2段階：3D Gaussian Scaffold（ガウシアン足場）の構築。生成されたパノラマから空間の奥行き構造を推定し、3D Gaussian Splatting（三次元空間を多数の楕円体で表現する技法）の形式に変換します。この足場がシーン全体の骨格となり、視点を移動させたときに一貫した奥行き表現を維持します。幾何認識型の残差予測を用いることで、パノラマの球面歪みを補正しながら精度の高い3D構造を得ています。

第3段階：蒸留による高速動画レンダリング。高精度だが低速な「双方向拡散モデル（bidirectional diffusion）」を教師として、より高速な「因果自己回帰モデル（causal autoregressive model）」を学生として知識蒸留を行います。この蒸留により、拡散モデルの品質を受け継ぎながら推論を大幅に高速化し、リアルタイムレンダリングを可能にしています。

図1: MoVerse の三段階パイプライン。1枚の入力写真からパノラマ生成・3D再構成・リアルタイム動画出力へと処理が進む

実験結果と性能

MoVerse は NVIDIA RTX 4090 を1枚使用した環境で8 FPS のリアルタイムレンダリングを達成しています。ユーザーが視点を動かす操作に対してほぼ遅延なく映像が更新されるため、インタラクティブな空間探索体験が可能です。

類似するアプローチとして WorldDreamer・LucidDreamer・WonderWorld などの先行手法がありますが、これらは生成品質とリアルタイム性のどちらかを犠牲にせざるを得ませんでした。MoVerse は三段階パイプラインと知識蒸留の組み合わせにより、両立を図っています。動画世界モデルという観点ではDecart の Oasis 3のような手法も存在しますが、MoVerse は単一の静止画を入力とする点で対象用途が大きく異なります。

図2: 先行手法との比較。MoVerse は画質・速度・操作性を総合的に向上させている

まとめと今後の展望

MoVerse は「1枚の写真から歩き回れる3Dシーン」というビジョンを、消費者向け GPU 1枚で実現した実用性の高い研究です。VR/AR アプリケーションへの組み込みやゲームエンジンとの統合、ロボットの環境シミュレーション構築など、応用可能な領域は広く想定されます。

現時点では 8 FPS という速度が一定の制約となっており、滑らかな VR 体験には一般的に 30〜90 FPS が望ましいとされています。今後はモデルの軽量化や推論最適化によるさらなる高速化、屋外・屋内を問わない多様なシーンへの対応が課題となるでしょう。また1枚の写真では捉えられていない遮蔽領域（オブジェクトの裏側など）の補完精度も、引き続き改善が求められる点です。

単一画像から空間全体を補完生成するアプローチは、専門的な 3D スキャン機材なしに没入型コンテンツを制作できる可能性を開くものです。既存の写真資産から歩き回れる空間体験を手軽に生成できるようになれば、コンテンツ制作の敷居は大幅に下がるでしょう。