- 動画生成モデルが時間的整合性を保つために暗黙的に学習した3D構造知識を、明示的な3D教師なしでMLLMへ注入するVEGA-3Dを提案
- ノイズ除去過程の最適タイムステップ(k=300)から抽出した特徴をトークンレベルの適応ゲーテッドFusionでMLLMに統合する新機構
- ScanReferで+4.5%、SQA3D EMで+2.7ポイントを達成し、ロボット操作ベンチマークでも有効性を実証
研究の背景
マルチモーダル大規模言語モデル(MLLM: Multimodal Large Language Model)は、画像や動画の内容を言語で説明したり質問に回答したりする能力を急速に高めています。しかし「空間的な理解」という点では依然として課題を抱えています。「この物体は棚のどこにありますか?」「2つの物体のうち手前にあるのはどちらですか?」といった問いに正確に答えるには、シーンの3D構造を把握することが不可欠です。
従来の改善アプローチは、大きく2つに分けられます。一つは深度センサやLiDARで取得した点群データをモデルへ直接入力する方法、もう一つは3Dアノテーション付きデータセットで追加学習を行う方法です。どちらも専用の3Dデータや高コストな監督情報を必要とするため、汎用性と拡張性に限界がありました。
この研究が着目したのは、大規模動画生成モデルが持つ「副産物としての3D知識」です。時間的に整合性のある動画を生成するためには、各フレームの視点変化や奥行き関係を正確に把握しなければなりません。つまり動画生成モデルは、3Dシーンの物理法則を学習データから暗黙的に習得しているはずです。この知識を理解タスクへ転用できないかという問いが、VEGA-3Dの出発点となっています。
VEGA-3Dの仕組み
VEGA-3D(Video Extracted Generative Awareness for 3D)は、事前学習済みの動画拡散モデルを「潜在的な世界シミュレータ」として活用するフレームワークです。採用した動画拡散モデルはWan2.1というDiT(Diffusion Transformer: 拡散モデルにTransformerを組み合わせたアーキテクチャ)ベースのモデルで、多視点整合性スコア96.88%という高い3D空間認識能力を持つことが確認されています。比較のため試されたUNetベースの拡散モデルは17.95〜66.74%と大きくばらついており、モデル選択の重要性が際立ちます。
特徴の抽出には、Flow Matching(確率的フロー整合)によるノイズ除去過程を活用します。入力映像の潜在表現z_0に対して、z_k = (1-t_k)z_0 + t_k·ε の式に従ってノイズを加え、中間状態の特徴を取り出します。実験の結果、k=300(全1000ステップの30%地点)が最適と判明しました。クリーンな状態では幾何情報が薄く、過剰なノイズでは構造シグナルが消失するため、適度に摂動された状態こそが3D情報を最もよく保持します。また、DiTの全レイヤーのうち20層目が最も豊富な3D情報を含むことも確認されました。

抽出した生成特徴とMLLMのセマンティック特徴を統合するのが、トークンレベルの適応ゲーテッドFusion機構です。各トークンiに対してスカラーゲート値g_i(0から1の範囲)を動的に算出し、最終的な特徴をF_i^fused = (1-g_i)·F_gen,i + g_i·F_sem,i として求めます。このゲートがセマンティック情報と幾何情報の重みを文脈に応じて自動調整し、両者の長所を引き出す仕組みです。アブレーション実験では、単純な加算融合(スコア61.5)や生成特徴のみの利用(54.9)と比べて、適応ゲーテッドFusionが63.2と最高スコアを記録しています。
実験結果
VEGA-3Dの性能は、3Dシーン理解・空間推論・ロボット操作という3つの領域で評価されました。
3Dシーン理解ベンチマークでは、ScanReferのAcc@0.5が51.7%から56.2%へ+4.5ポイント改善しました。SQA3D(3D空間でのQAタスク)のExact Match(EM)スコアも58.6から61.3へ+2.7ポイント向上しています。ScanQAでもC/EMの両指標で改善が確認されており、これらはいずれも明示的な3D入力を必要としない手法として既存の競合手法を上回る数値です。
空間推論ベンチマークのVSI-Bench(Visual Spatial Intelligence Benchmark)でも48.9から50.5へスコアが向上しました。DVDが動画拡散モデルの事前知識を深度推定へ転用したのと発想を共有しつつ、VEGA-3DはMLLMの推論能力全般へとその適用範囲を広げている点が新しいところです。
ロボット操作ベンチマークのLIBEROでは、OpenVLA-OFTをベースとした平均成功率が97.0%から97.3%へ改善しました。物体操作タスク(Object: 98.3%→99.4%)と長期計画タスク(Long-Horizon: 94.4%→95.2%)で顕著な向上が見られます。すでに高水準に達している飽和域での改善は、手法の実用的な有効性を示すものといえます。

まとめと今後の展望
VEGA-3Dは、生成モデルの学習済み知識を理解タスクへ転用するという新しい研究方向を明確に示しました。大規模な3Dアノテーション付きデータセットや専用センサを必要とせず、動画生成モデルが副産物として習得した3D表現を再利用できる点が大きな利点です。
アーキテクチャ面では、最適なノイズレベルの選択やDiTレイヤーの特定、適応ゲーテッドFusionの設計など、細部の設計判断がすべて実験的に検証されており、再現性も確保されています。コードはGitHubで公開済みです。
課題としては、動画生成モデルの品質や種類への依存性が挙げられます。より多様なシーンカテゴリへの適用や、リアルタイム処理への最適化に向けた取り組みが今後求められるでしょう。生成AIの知識を知覚・理解タスクへ橋渡しするというこのアプローチには、まだ多くの発展の余地が残されています。

