- 三角形プリミティブを採用した単一フォワードパスで、変換処理なしにシミュレーション対応メッシュを直接出力
- RealEstate10KでのメッシュF1スコアが既存手法比40%向上、推論速度は最大249倍の高速化を達成
- UnityとNVIDIA Isaac Simへの変換なし直接インポートを実証し、ロボティクス・自動運転シミュレーションへの応用を後押し
研究の背景
3Dシーンをカメラ画像から復元する技術は、ロボティクスや自動運転、ゲームエンジンなど幅広い分野で求められています。近年、3D Gaussian Splatting(3DGS)に代表されるガウシアン表現が高品質な新視点レンダリングで注目を集めました。しかしガウシアンは「点雲の確率分布」として場面を表現するため、物理シミュレーションに必要な三角形メッシュへの変換に追加処理が必要です。
TSDFフュージョンと呼ばれる変換処理は、単独で15秒以上かかることがあり、表面の欠落や形状の断片化といった品質劣化も生じやすい課題がありました。疎な視点(数枚の画像)から高精度なメッシュを生成するフィードフォワード型手法では、幾何学的精度と推論速度の両立が難しい状況でした。
TriSplatの仕組み
ETH Zurichらの研究チームが提案したTriSplatは、ガウシアンではなく三角形プリミティブをシーン表現の基本単位として採用しています。三角形はメッシュの構成要素そのものであるため、再構成と同時にシミュレーション対応のメッシュが得られます。変換処理を挟む必要がなく、生成されたメッシュをそのまま物理エンジンで使える点が最大の利点です。

アーキテクチャはDINOv2(自己教師あり学習で視覚特徴を学習済みのモデル)をバックボーンに使い、Local-Global Attentionデコーダブロックを経て3つの並列ヘッドに接続します。各ヘッドは局所3D点群マップ、カメラポーズ(SE(3)変換)、三角形の属性(密度、スケール、クォータニオン、球面調和係数、ぼかし量)をそれぞれ同時に推定し、U-Netによって法線方向がサーフェスに密着する向きに揃えられる設計です。
学習には新視点合成損失とメッシュレンダリング損失を組み合わせており、LPIPS(画像の知覚的類似度を測る指標)やSSIM、深度・法線の回帰損失も加えることで視覚品質と幾何精度の両方を最適化します。
法線の洗練と幾何精度
三角形の向き(法線)が不正確だと、面がランダムな方向を向いた「毛羽立ち」状の表面になり、物理シミュレーションで誤った衝突判定が起きます。TriSplatはこの問題に対して「モノ法線ブートストラップ」と呼ぶ学習スケジュールを導入しています。
学習初期(0〜6,000ステップ)はMono-Normalと呼ばれる単眼深度推定モデルの法線を教師として完全に利用し、中期(6,000〜20,000ステップ)は徐々にモデル自身の予測へ移行、後期(20,000ステップ以降)は学習済みの法線のみで推定します。この段階的な移行により、幾何情報が収束する前の不安定な時期を安全に乗り越えられます。
実験結果と性能比較
RealEstate10K(室内シーン)とDL3DV(多様な屋内外シーン)の2つのベンチマークで評価が行われました。6視点入力でのメッシュ幾何精度(F1スコア)はYoNoSplatなどのガウシアン系フィードフォワード手法と比べて約40%向上し、メッシュレンダリングのPSNR(画像品質を示す数値指標)は+2.75 dB上回りました。ゼロショット評価のScanNetデータセットでも、法線の平均角度誤差が54.1°から27.9°へと大幅に改善しています。

PhysX-Omniのような物理対応3D生成フレームワークと同様に、TriSplatも再構成した形状をシミュレーション環境でそのまま活用できる設計になっており、下流のロボティクスや建築可視化パイプラインとの親和性が高いです。
推論速度の比較

TriSplatは6視点で0.57秒、24視点でも1.23秒以内にメッシュを書き出せます。ガウシアン系フィードフォワード手法はTSDF変換だけで15秒以上かかるケースがあり、トータルでは6視点で33倍、24視点で249倍の速度差が生まれます。この差は、リアルタイムのシミュレーション更新が求められる自動運転やインタラクティブなゲーム開発で特に大きな意味を持ちます。
シミュレーションへの応用
生成されたメッシュはUnityとNVIDIA Isaac Simに手作業なしで直接インポートできることが実証されています。剛体の物理シミュレーション、ロボットアームの把持動作計画、ヒューマノイドや四足歩行ロボットの経路探索など、複数のシナリオでそのまま動作することが確認されました。

従来のガウシアン手法ではシミュレーション利用のたびにTSDF変換と手動クリーンアップが必要でしたが、TriSplatはそのステップを省略できます。ロボティクス研究や仮想空間コンテンツ制作など、3D再構成の後工程でメッシュを使う場面では実用的な利点が大きいといえます。
まとめと今後の展望
TriSplatは表現の選択(ガウシアンから三角形へ)というシンプルな変更で、従来手法が抱えていた「再構成品質とシミュレーション対応のトレードオフ」を同時に解消した研究です。GitHubでコードが公開されており、再現実験がしやすい環境が整っています。
一方、現在の評価は静的な室内外シーンが中心であり、動的な物体や細い構造物への対応は今後の課題として残ります。シーンの複雑さに応じて三角形の密度を適応的に制御する手法や、より多くのドメインへのゼロショット汎化も研究の余地があります。
