WildDet3D とは？テキスト・点・ボックスプロンプトで動く単眼3D物体検出の仕組み

テキスト・点・ボックスの3種プロンプトを統一的に処理し、Omni3Dでテキスト34.2/ボックス36.4 AP3Dの最高精度を達成
100万枚超の画像と1万3,500超のカテゴリを含む最大規模のオープン3Dアノテーションデータセット「WildDet3D-Data」を同時公開
推論時に深度情報を加えることで複数設定の平均+20.7 APの精度向上が得られ、空間AI・ロボティクス・自動運転への応用が期待される

研究の背景

空間インテリジェンスの実現に向けて、単一のRGB画像から物体の位置・大きさ・向きを推定する「単眼3D物体検出（Monocular 3D Object Detection）」は重要な基盤技術です。ロボットや自動運転システムが周囲の3D空間を理解するための第一歩として、この技術の実用化は長年の研究課題でした。

しかし既存手法には、大きく2つの課題がありました。1つ目は、プロンプト形式の制約です。テキストで物体を指定するモデルは点や矩形のプロンプトを扱えず、それぞれの用途に合わせて別々のモデルを用意しなければなりませんでした。2つ目は、学習データの問題です。3Dアノテーション付きデータセットはこれまで、特定の環境に限られた狭いカテゴリしか網羅できておらず、見慣れない物体への汎化が難しいという限界がありました。

Allen Institute for AI（Ai2）の研究チームは、この2つの課題を同時に解決するフレームワーク「WildDet3D」を2026年4月に発表しました。

WildDet3Dの手法

WildDet3Dの核心は、テキスト・点・ボックスの3種類のプロンプトを統一的に処理できる「ジオメトリアウェア（幾何構造を考慮した）」アーキテクチャにあります。

図1: WildDet3Dのアーキテクチャ概要。3種類のプロンプトと任意の深度信号を統合し、3Dバウンディングボックスを出力する

モデルはまず、RGB画像からビジュアルエンコーダが視覚特徴を抽出します。次に、入力されたプロンプトの種類（テキスト・点・ボックス）に応じたエンコーダがプロンプト特徴を別途生成します。これら2つの特徴はクロスアテンション（2つの異なる特徴を互いに照らし合わせて統合する注意機構）を通じて融合され、最終的に3D検出ヘッドが物体の位置・大きさ・向きを含む3Dバウンディングボックスを出力する仕組みです。

さらにWildDet3Dには、推論時に外部の深度信号を取り込む機構が組み込まれています。深度センサーや深度推定モデルから得られた情報を追加入力として利用することで、精度を大幅に高められます。センサーが利用できない場面でも動作しつつ、利用できる場面では性能を最大化できるという設計は、実際の運用環境の多様性を的確に捉えています。

WildDet3D-Dataの全貌

モデルと並んで重要な貢献が、新たに構築された大規模データセット「WildDet3D-Data」です。従来の3Dデータセットが数千〜数万件規模にとどまっていたのに対し、WildDet3D-Dataは100万枚超の画像と1万3,500超のカテゴリを収録するオープン3D検出データセットとして最大規模を誇ります。

構築方法にも工夫があります。既存の2Dアノテーション（物体の矩形領域情報）から3Dバウンディングボックスの候補を自動生成し、その後に人間が検証したデータのみを採用するパイプラインを採用しています。この手法により、コストを抑えながら大規模かつ多様な現実世界のシーンをカバーし、データ品質を維持することに成功しました。屋内・屋外・自動運転シーンを含む多様なカテゴリと場面をカバーするこのデータセットが、オープンワールドでの汎化性能を支えています。

実験結果

WildDet3Dは複数のベンチマークで最高水準の精度を達成しました。新たに整備されたWildDet3D-Benchでは、テキストプロンプトで22.6 AP3D、ボックスプロンプトで24.8 AP3Dを記録しています。多様なシーンを含む大規模ベンチマーク「Omni3D」ではテキストで34.2 AP3D、ボックスで36.4 AP3Dを達成しました。

ベンチマーク	プロンプト	深度なし	深度あり
Omni3D	テキスト	34.2 AP3D	41.6 AP3D (+7.4)
Omni3D	ボックス	36.4 AP3D	45.8 AP3D (+9.4)

ゼロショット評価（学習に用いていないデータセット）では、自動運転データ「Argoverse 2」と屋内シーン「ScanNet」に対して、テキストで40.3 ODS、ボックスで48.9 ODSという高い汎化性能を示しました。

推論時に深度信号を組み込んだ場合の効果も顕著です。WildDet3D-Bench・Omni3D・Argoverse 2・ScanNetにわたる複数のベンチマーク・プロンプト設定の全体平均で+20.7 APの追加向上が得られています。Omni3Dに限るとテキストで+7.4、ボックスで+9.4ですが、他のベンチマークではさらに大きな改善幅が得られており、それらが全体平均を押し上げています。

コード・モデル・デモはGitHubとHugging Faceで全て公開されており、iOSアプリまで提供されています。空間認識を要する実環境タスクへの展開は急速に進みつつあり、ロボット制御向けに最適化されたVLMのHY-Embodied-0.5のような実体化AIと組み合わせることで、より豊かな3D空間理解が実現できると考えられます。

まとめと今後の展望

WildDet3Dは、多様なプロンプト形式への対応・最大規模のオープンデータセットの整備・推論時の深度統合という3つの観点から、単眼3D物体検出に新しい水準を打ち立てました。特に「センサーがなくても動き、センサーがあれば精度が上がる」設計は、実環境での多様なセンサー構成に対応できる現実的な価値があります。

一方で課題も残ります。1万3,500超のカテゴリを扱う場合の推論速度や、さらに多様なシーン分布への対応は今後の検討事項です。また、深度信号が利用できない環境での性能をいかに引き上げるかも、引き続き重要なテーマとなるでしょう。空間AIの実用化に向けた基盤として、今後の発展が注目されます。