PhysX-Omniとは？剛体・変形体・関節体を統一するシミュレーション対応3D生成フレームワーク

テンプレートベースのRLE幾何表現でVLMに最適化した3D生成を実現し、既存手法と比べてChamfer Distanceを12分の1以下に削減
剛体・変形体・関節体をカバーする8,700件以上のシミュレーション対応データセット「PhysXVerse」を新たに公開
幾何・スケール・材質・アフォーダンス・運動学など6軸で評価する「PhysX-Bench」でロボット学習への実用性を実証

研究の背景と課題

3Dコンテンツ生成の研究は近年急速に進んでいますが、多くの手法は視覚的な品質を重視するあまり、物理シミュレーションへの対応を後回しにしてきました。ロボット工学や体現AI（Embodied AI）の分野では、生成した3Dアセットがリアルな物理挙動を示すことが不可欠です。

物理シミュレーション対応の3D生成を試みた既存手法も、剛体（形が変わらない物体）・変形体（柔らかい物体）・関節体（ロボットアームのような関節構造を持つ物体）のいずれか1種類にしか対応できないという制約がありました。この「単一カテゴリの壁」が、ロボット学習に必要な多様なデータの整備を妨げてきました。

PhysX-Omniの全体像

PhysX-Omniは、1枚の画像（完全な画像でも部分的に隠れた画像でも対応）から始まり、シミュレーションにすぐ使える物理的な3Dアセットを自動生成するフレームワークです。生成プロセスは「粗から細へ、全体から部品へ」という2段階の流れで進みます。

まず全体的な情報（カテゴリ、スケール、階層構造）を推論し、続いて各部品の詳細な幾何形状と物理属性を順次生成します。全体表現と部品表現の間に自然な整合性が保たれているため、別途位置合わせをしなくてもそのまま統合できる設計になっています。

図1: PhysX-Omniのパイプライン全体像。1枚の画像から全体情報を推論し、マルチターン生成で部品ごとの詳細形状と物理属性を生成してシミュレーション対応アセットに統合する

VLM向け幾何表現の工夫

PhysX-Omniの核心技術の1つが、VLM（視覚言語モデル）に最適化した独自の幾何表現「テンプレートベースRLE（ランレングス符号化）」です。通常、3D形状をボクセル（三次元のマス目）でそのまま表現するとデータが膨大になり、VLMで扱いにくくなります。

この手法では、部品ごとのボクセルをZ軸に沿って二次元のスライスに変換します。複数のスライスが形の「テンプレート」を共有し、スライス間の差分のみを保存することで、情報量を大幅に削減しながら複雑な形状を忠実に表現できます。アブレーション実験でも、この表現を導入することで複雑な構造の生成精度が顕著に向上することが確認されています。

図2: 幾何表現の比較。テンプレートベースRLEを導入することで、複雑な構造の生成精度がベースラインと比べて大幅に向上している

PhysXVerse：初の汎用シミュレーション対応データセット

PhysX-Omniの学習と評価を支えるのが、新たに構築された「PhysXVerse」データセットです。8,700件以上の高品質なシミュレーション対応3Dアセットを収録し、屋内・屋外を合わせて2,900以上のカテゴリをカバーしています。車・建物・人体モデル・おもちゃ・ロボットなど、従来のデータセットでは見られなかった幅広い種類のオブジェクトが含まれます。

収録アセットの部品数は1個から65個まで分布しており、単純な剛体から複雑な関節システムまで多様な構造に対応しています。物理属性のアノテーションはGPTによる自動生成と人間による検証を組み合わせて付与されており、品質と規模の両立を実現しています。

図3: PhysXVerseのデータ統計と分布。車・建物・人体モデルなど幅広いカテゴリをカバーし、部品数はロングテール分布を持つ

PhysX-Bench：6軸の評価ベンチマーク

既存の3D生成評価指標は視覚的な品質を測るものが多く、物理シミュレーションの観点が欠けていました。PhysX-Benchはこの問題に正面から取り組み、次の6つの評価軸を設けています。

幾何：CLIPスコアや三次元の一貫性など視覚品質
絶対スケール：実世界の寸法との誤差
アフォーダンス：人と物体の相互作用の妥当性
機能説明：意味的な理解の精度
材質：自由落下・水滴シミュレーションによる物理特性評価
運動学：関節運動の物理的妥当性と一貫性

評価の妥当性を確かめるため、人間のアノテーションとPhysX-Benchのスコアを比較した実験も行われており、6つの評価軸すべてで高い相関が得られています。SEGAのような生成モデル研究では視覚品質に主眼を置きますが、PhysX-Benchは物理的妥当性まで評価できる点が際立っています。

図4: PhysX-Benchの6つの評価軸の概要。3Dの構造・外観・物理属性・意味理解を包括的に評価する

実験結果

既存手法「PhysX-Anything」との定量比較では、全指標で大幅な改善が確認されています。形状精度を示すChamfer Distance（値が低いほど良い）はPhysX-Omniが2.95であるのに対し、比較手法は37.06と約12倍の誤差があります。物体表面の再現精度を示すF-scoreは91.28対40.46と、2倍以上の差がついています。

実世界スケールの推定精度を示す絶対スケール誤差は2.79に対して298.19と100倍以上の差があり、関節運動の精度を示す運動学スコアは0.9185対0.4191とPhysX-Omniが大きく上回っています。定性的な比較でも、複雑な構造や細かな物理属性の生成において優れた結果を示しています。

図5: 定量比較と人間アライメント検証。PhysX-Omniは全指標で既存手法を大幅に上回り、PhysX-Benchのスコアは人間のアノテーションと高い相関を示す

ロボティクスへの応用

PhysX-Omniの重要な応用の1つが、ロボット操作タスクの学習データ生成です。生成された3Dアセットは幾何構造・物理特性・関節パラメータを保持したまま物理シミュレータに直接投入できます。実験では、接触が多い複雑な操作タスクにおいて、生成アセットが構造的・物理的に安定した挙動を示すことが確認されています。

シミュレーション用の3Dデータを手動で作成するコストは非常に高く、これがロボット学習研究の大きなボトルネックになっていました。1枚の画像からシミュレーション対応アセットを自動生成できるようになることで、このボトルネックを解消できる可能性があります。

図6: 生成アセットを使ったロボット操作タスク。多様なタスクで物理的に妥当な挙動と正確な幾何構造を実証している

まとめ

PhysX-Omniは、剛体・変形体・関節体を統一的に扱える初のシミュレーション対応3D生成フレームワークです。VLM向けに設計されたテンプレートRLE幾何表現、8,700件以上の「PhysXVerse」データセット、6軸評価の「PhysX-Bench」を同時に公開しており、再現性と発展性の双方において高い水準を示しています。

論文内では、非常に複雑な関節構造や薄い板状の形状では生成精度が低下する場合があることも率直に述べられています。生成速度の向上や高解像度テクスチャ生成との組み合わせが今後の発展の方向性として考えられ、ロボット学習や体現AIの研究基盤として果たす役割は大きいでしょう。