PhysiFormerとは？3Dメッシュの物理挙動を拡散トランスフォーマーで直接予測する新手法

3Dメッシュの頂点軌跡を世界座標系で直接予測する拡散トランスフォーマーで、剛体・弾性体を単一モデルで統一的に扱える
10万件超のシミュレーション軌跡で学習し、軌跡精度・剛性保持・運動量整合性の全指標で自己回帰ベースラインを大幅に上回る性能を達成
学習データにない実世界形状や混合材料設定にも汎化し、ロボティクス・VR・ゲームAIなど幅広い応用分野への展開が期待できる

研究の背景

物体が衝突し、変形し、跳ね返るといった物理挙動の予測は、ロボット工学・映像制作・ゲーム開発において基盤となる技術です。従来の有限要素法などの数値シミュレーターは高精度ですが、パラメータ設定に専門知識が必要で、大量シーンへの適用にはコストがかかります。

この課題を受け、ニューラルネットワークで物理挙動を学習する「ニューラル物理シミュレーター」の研究が盛んになっています。ただし既存手法の多くは、剛体と弾性体を別々のモデルで扱うか、複雑な潜在空間（入力データを圧縮した低次元表現）や明示的な剛性制約を必要とするものが中心でした。こうした設計上の制約が、未知形状や混合材料環境への汎化を妨げる要因となっていました。

PhysiFormerの仕組み

Oxford大学のVedaldi研究室が発表したPhysiFormerは、3Dメッシュ（頂点と面で構成された三次元形状表現）の頂点軌跡を、世界座標系で直接予測する拡散トランスフォーマーです。入力として各頂点の初期位置・速度と材質タイプ（剛体か弾性体か）を受け取り、拡散過程のサンプリングを通じて将来の頂点位置の時系列を生成します。

拡散モデル（Diffusion Model）とは、データにノイズを段階的に加えてから元に戻す過程を学習し、多様なサンプルを生成できる手法です。PhysiFormerはこの枠組みをピクセル画像ではなく3D頂点座標に直接適用しており、明示的な剛性制約や潜在空間エンコーダーを必要としない点が特徴的です。アーキテクチャには、時間・空間・物体の3軸にわたって注意（Attention）の計算を分解した効率的な機構を採用し、複数物体が存在する場面での順列不変な推論にも対応しています。拡散トランスフォーマーを三次元の幾何情報に活かすアプローチは、動画拡散モデルの潜在空間から高精度な3Dシーンを生成するFLATと問題設定こそ異なりますが、生成モデルの確率的サンプリング能力を三次元空間の表現に応用するという方向性を共有しています。

実験結果

PhysiFormerは10万件を超えるシミュレーション軌跡データで学習されており、剛体・弾性体の両方の力学挙動をカバーしています。評価には軌跡精度・剛性保持・運動量ベースの物理整合性という3つの指標を使用し、いずれにおいても自己回帰ベースライン（過去の状態から1ステップずつ次の状態を予測する手法）を大幅に上回る結果が得られました。

汎化性能の面でも良好な結果が示されています。学習時に用いていない未知の実世界形状、剛体と弾性体が混在する設定、物体数が多い大規模環境においても安定した予測精度を発揮しました。拡散モデルの確率的なサンプリング特性により、物理的に妥当な軌跡の多様なバリエーションを生成できることも確認されています。一方で、本研究が扱う材料は剛体と弾性体に限定されており、流体や布などより複雑な材料への対応は今後の課題として挙げられています。

まとめと今後の展望

PhysiFormerは、明示的な物理制約や潜在空間エンコーダーを持たずに、3Dメッシュの物理シミュレーションを拡散トランスフォーマーで端から端まで学習する枠組みを示しました。剛体・弾性体を単一モデルで統一的に扱える点と、10万件超の学習データに基づく高い汎化性能が主な貢献です。

今後の応用としては、ロボットのマニピュレーション計画における接触物理の予測、VR空間でのリアルタイム物理表現、ゲームAIにおける動的オブジェクトの挙動生成などが考えられます。コードとモデルはプロジェクトページで公開されており再現性が高いため、研究コミュニティからの発展が期待できます。流体・布・粉体など多様な材料への拡張や、推論の高速化が達成されれば、幾何認識型ワールドモデルとしての実用性がさらに高まるでしょう。