- 単一のDiTモデルで画像と深度マップを同時生成し、既存の結合生成モデルより57%のAbsRelエラー削減を達成
- モダリティごとに異なるノイズレベルを割り当てる設計により、疎なLiDARデータだけで学習が可能
- 370Mから3.3Bパラメータまで一貫したスケーリング則が確認され、大規模モデルほど深度精度が向上
研究の背景
カメラで撮影した2D画像から3Dの空間構造を推定する「単眼深度推定」は、自動運転やロボティクス、AR(拡張現実)など幅広い分野で必要とされています。精度の高い深度データを収集するにはLiDARセンサーが欠かせませんが、コストと収集の手間から実用的なデータセットはどうしても疎(スパース)になりがちです。
一方で、近年の大規模テキスト-画像生成モデル(T2Iモデル)は、膨大な画像データを通じて視覚世界の空間的な仕組みを暗黙のうちに学習しています。この知識を活用できれば、限られた深度データからでも高精度な3D理解を実現できるはずです。CMUとGoogleの研究チームが提案した「Modality Forcing」は、この発想を具体化した手法です。
Modality Forcingの仕組み
手法の核心は、画像(RGB)と深度マップというふたつのモダリティに対して、それぞれ異なるノイズレベルを割り当てながら同時に学習させることです。通常の拡散モデルはすべての情報を均一にノイズ除去しますが、Modality Forcingでは一方のモダリティを先行して処理しながら、もう一方を条件付きで生成するよう訓練します。この設計が「Modality Forcing(モダリティ強制)」という名前の由来です。
さらに、モダリティごとに専用のデコーダを設けることで、実世界のLiDARが取得した疎な深度データ(測定点が散在する不完全なデータ)をそのまま学習に使えるようにしています。高コストな密な深度アノテーションがなくても、既存の実世界データセットを活用できる点が実用上の大きな強みです。


3つのタスクをひとつのモデルで
Modality Forcingの大きな特長は、ひとつのチェックポイントが3種類の生成タスクをすべて実行できる点です。テキストのみを入力として画像と深度マップを同時に生成する「Joint Generation」、既存の画像から深度マップを推定する「画像→深度(単眼深度推定)」、そして深度マップを条件に新たな画像を生成する「深度→画像」の3タスクが、共通のモデル重みで動作します。

実験結果と性能比較
深度推定精度を測る標準指標「AbsRel(平均絶対相対誤差)」において、Modality Forcingは既存の結合生成モデルと比較して57%の誤差削減を達成しました。比較対象となったJointDiTは強力なFLUXモデルを継承しているにもかかわらず、深度推定が不安定になる場面があります。一方、Modality Forcingはより頑健な結果を一貫して示しています。
定性的な評価でも差は明確です。深度マップを3D点群に変換した際、Modality Forcingは物体の輪郭や奥行きを正確に復元します。比較手法では物体の構造が欠落したり、スケールを誤推定したりするケースが見られましたが、Modality Forcingはそのような致命的な失敗が少ないことが確認されています。

スケーリング則の確認
著者らは370M(3億7000万)から3.3B(33億)パラメータまで複数サイズのモデルを訓練し、スケーリング則を検証しました。T2Iモデルが大きくなるほど、また事前学習に使う画像データが多くなるほど、深度推定の精度指標(δ1スコア)が一貫して向上することが確認されています。
この結果は重要な示唆を持ちます。大規模な画像生成の事前学習が、そのまま3D空間理解の能力向上にも直結するということです。画像生成を深度推定の事前学習目標として位置付けることで、空間認識の汎用的な基盤モデルを構築できる可能性を示しています。

推論時の制御可能性
Modality Forcingのもうひとつの利点は、推論時にノイズ除去の軌道を制御することで、生成の「主導権」をRGBと深度のどちらに持たせるかを段階的に調整できる点です。深度を先行してノイズ除去すると、RGB生成が深度マップに強く従属するため、深度条件付き画像生成として機能します。逆に両モダリティを同時にノイズ除去すれば、テキストを主な入力とした自由な同時生成モードになります。
具体的には、深度のノイズ除去ステップを全体の100%先行させると、生成される画像の構図や奥行き感が指定した深度マップに厳密に従います。50%付近で切り替えると、大まかな3D構造は深度に沿いつつ、テクスチャや細部のデザインに自由度が生まれます。さらに両モダリティを完全に同時処理すれば、テキストプロンプトだけが唯一の条件となる完全な同時生成モードになります。この切り替えはモデルの再学習を必要とせず、推論パラメータを変えるだけで実現できます。従来は別々のモデルが必要だった複数のシナリオを、ひとつのチェックポイントで柔軟に切り替えられるのは大きな実用上の利点です。

まとめ
Modality Forcingは、テキスト-画像生成モデルを出発点に、疎な実世界深度データだけで画像と深度マップの同時生成を実現する手法です。AbsRelエラーの57%削減と370Mから3.3Bパラメータにわたるスケーリング則の確認は、この方向性の実用的な可能性を示す結果です。
画像生成と3D空間理解を融合するアプローチは、SpatialClawのような空間推論エージェントとも接点が多く、マルチモーダルAIの次の展開として注目される研究領域です。コードと生成サンプルはプロジェクトページ(modality-forcing.github.io)で公開されています。
