- 焦点距離の統一・テキストでのピクセル座標参照・データスケーリングという3要素のみで、標準VLMが深度推定のδ₁精度を0.84から0.90に向上させるなど多様な3Dタスクを専門モデル並みに解けることを実証
- カメラポーズ推定のAUC@30°はベースラインVLMの5.4%から94.0%へ大幅改善し、ピクセル対応の誤差は約10分の1に削減。いずれも専門モデルと同等以上の精度を達成
- 専用アーキテクチャ・複雑な損失関数・大量データ拡張がいずれも不要という反直感的な設計が、3D視覚学習の新しいパラダイムを提示する
研究の背景
深度推定やカメラポーズ推定、ピクセル対応といった「3D視覚タスク」は長年、タスクごとに専用のアーキテクチャや複雑な損失関数、重量級のデータ拡張が必要とされてきました。汎用モデルには手が届かない領域とみなされており、実際にそれを覆す研究はほとんどありませんでした。
近年の視覚言語モデル(Visual Language Model: VLM)の台頭で、画像とテキストを組み合わせた多くの視覚タスクを1つのモデルで解けるようになりました。しかし「奥行きを精密に測る」「2つの画像間でカメラの向きを推定する」といった3D理解は、VLMには難しいと考えられていました。MetaとPrinceton大学の研究者たちが提案するVLM3(Vision Language Models as Native 3D Learners)は、この常識に真っ向から挑みます。
VLM3の3つの工夫

VLM3の設計は驚くほどシンプルです。複雑なモジュールの追加や特殊なアーキテクチャは一切不要で、次の3つの工夫だけで成り立っています。
工夫1:焦点距離の統一 入力画像をすべて「焦点距離1000ピクセル相当」にリサイズします。焦点距離(レンズがどれだけ被写体を拡大するかを示す値)はカメラによって異なるため、複数データセットを混合して学習しようとするとスケールが揃わず精度が落ちるという「カメラ曖昧性」問題がありました。焦点距離が未知の場合は、単一画像キャリブレーションモデルで事前推定します。この前処理一つで、追加モジュールなしに問題を解消しています。
工夫2:テキストでのピクセル参照 ピクセル座標を水平・垂直ともに [0, 2000) の範囲に正規化し、テキストとして表現します。従来の研究では視覚的なマーカーや矢印を画像上に描き込んでモデルに位置を伝えていましたが、VLM3にはその必要がありません。テキストとして座標を与えるだけで、1枚の画像に対して複数ピクセルの質問を一括処理でき、柔軟性とスケーラビリティが大きく向上しています。
工夫3:データ混合とスケーリング 複数データセットの重み付けを適切に最適化することが、複雑な損失設計よりも精度向上に効果的であることを実験で示しています。均一な重みでの学習ではδ₁精度が0.842に留まるのに対し、データサイズ比例の重み付けで0.884、さらに最適化された重み付けでは0.904まで向上します。
実験結果

VLM3はQwen2.5-VL-4Bを基盤モデルとして使用し、複数の3Dタスクで評価されました。
深度推定では、NuScenes・ETH3D・SUNRGBD・iBims1の4データセット平均でδ₁精度(予測深度が正解の±12.5%以内に収まる割合)が0.90を達成しました。7Bモデルだった先行手法DepthLMの0.84を、より小さな4Bモデルで超えています。学習効率の面でも、32台のGPUで3日間という計算コストに収まっており、DepthLMが128台のH100 GPUを2日間使い10倍のデータで学習した結果を上回っています。
カメラポーズ推定(2視点の相対的な向きと位置を推定するタスク)では特に顕著な改善が見られました。ベースラインVLMのAUC@30°が5.4%(ほぼ偶然以下)に留まるのに対し、VLM3は平均94.0%を記録。専門モデルDA3-Giant(94.7%)と同等の水準に達しています。
ピクセル対応(2枚の画像間で同じ場所を対応付けるタスク)のEndpoint Error(EPE:予測と正解のピクセル距離)は、ベースラインの153.28から15.37へと約10分の1に削減されました。専門モデルRoMaの21.88を下回る高精度です。さらにオブジェクトレベルの3D理解でも、SpatialRGPT-Benchで91.35%を記録し、8Bモデルの専門モデルSpatialRGPT(89.80%)を4Bモデルで上回りました。
多様なシーンへの対応

定量評価だけでなく、可視化結果も多様なシーンで安定した性能を示しています。屋内と屋外の両方、単視点と複数視点の両方の入力に対して、VLM3は深度マップ・カメラポーズ・ピクセル対応を正確に出力できます。
注目すべきは、VLM3の推論パイプライン自体がテキスト生成のみで完結する点です。深度値もカメラの回転行列もすべてテキストとして出力され、数値に変換して利用します。Qwen-VLAのようなロボット制御モデルでは正確な3D空間理解がナビゲーションや物体把持の精度に直結しますが、VLM3のような汎用的な3D視覚能力の向上がそうした応用にも波及することが期待されます。
まとめと今後の展望
VLM3は「3D視覚タスクには専用アーキテクチャが必要」という既成概念を覆しました。焦点距離の統一・テキストベースのピクセル参照・データスケーリングという3つのシンプルな工夫だけで、標準VLMが深度推定から3Dオブジェクト理解まで専門モデルと競合できることを実証しています。
一方で残された課題もあります。動的なシーンや極端な照明条件での性能、リアルタイム推論への対応、さらには3Dシーン全体の再構成といったより高難度のタスクへの展開は今後の研究課題です。設計のシンプルさを保ちながらスケーリングでどこまで性能を伸ばせるか、今後の進展が注目されます。
