- 視覚的品質スコアと実行成功率のPearson相関はr=−0.03とほぼゼロで、「見栄えの良い動画≠物理的に正しい動画」を101タスク・8モデルの実験で定量的に実証した
- 生成動画から2Dトラックレット→3D軌跡→7次元ロボット軌跡へ変換し、物理シミュレータで実際に実行することで客観的な評価を完全自動化するパイプラインを構築
- 汎用動画生成モデルがロボット特化モデルに匹敵する成功率を達成し、インターネット規模の学習データが物理的な世界知識を内包することを確認
研究の背景と課題意識
動画生成AIの品質評価はこれまで「どれだけ自然に見えるか」を基準としてきました。FID(Fréchet Inception Distance、生成画像の統計的品質を測る指標)やFVD(動画版のFID相当)、人間による視覚評価が広く使われてきましたが、これらは本質的に「見た目の良さ」しか測っていません。
近年の動画生成モデルは「世界モデル(World Model)」としての役割を期待されています。世界モデルとは、物理的な因果関係や物体の動き、接触の仕組みを内部で理解したモデルのことですが、従来の評価指標ではモデルが物理法則を実際に理解しているのか、見た目だけを学習しているのかを判別できませんでした。
Dream.exeはこの問いに正面から向き合います。ロボット操作という「物理的に正しくなければ成立しないタスク」を評価軸に据え、動画生成モデルが出力した映像から実際にロボットを動かすことで、物理的実行可能性を定量化する新たなフレームワークです。

評価フレームワークの設計
Dream.exeは101件のロボット操作タスクを3段階の難易度で構成しています。Level 1は単一物体の把持・配置といった基本動作、Level 2は複数物体の積み重ねや容器への配置といった相互作用、Level 3は引き出しを開けてから物体を取り出すといった複数段階の複合タスクです。さまざまなカメラ視点が意図的に採用されており、特定の視点に依存しない汎化評価を実現しています。
評価の流れはシンプルながら精緻に設計されています。まず初期シーン画像とタスク指示文を動画生成モデルに与え、ロボット操作の様子を映した動画を生成させます。次にその動画から視覚的品質と物理的妥当性を評価しながら、含まれる動きを軌跡として抽出します。最後にその軌跡を物理シミュレータで再生し、タスクが成功したかどうかを最終的な評価基準とします。

軌跡の抽出には複数のコンピュータビジョン技術が組み合わせて使われています。生成動画上で物体や手先の動きを2次元の点列(トラックレット)として追跡し、深度推定によって3次元座標へ変換します。さらに手先の回転角度とグリッパーの開閉情報を合わせて7次元の実行可能軌跡へと変換し、シミュレータで再生します。この一連の変換を自動化することで、人手に頼らない客観的な評価を可能にしています。

実験結果
評価対象は8種類のモデルです。閉鎖型モデルとしてHailuo 2.3、Kling 3.0、Wan 2.7、SeedDance 2.0、Veo 3.1の5種類、オープンソースモデルとしてWan 2.2とLTX-Video 2.3の2種類、そしてロボット専用モデルとしてCosmos Policyが含まれます。
成功率はタスクの難易度によって大きく異なります。Level 1ではロボット特化のCosmosPolicy-BenchCamが20.8%で最高を記録し、Level 2ではSeedDance 2.0とWan 2.7が21.4%を達成しました。Level 3になるとKling 3.0のみが6.2%の成功率を示すという厳しい結果で、複合タスクの難しさが浮き彫りになっています。
最も重要な発見は、視覚的品質スコアと実行成功率のPearson相関係数がr=−0.03とほぼゼロであることです。LTX-Video 2.3は物理的妥当性の評価で全モデル中1位を獲得しながら、実行成功率は最下位でした。Veo 3.1はタスク遵守スコアが最高でも、Level 1での成功率は3.3%に留まっています。「視覚的に良い動画を生成できるモデルが物理的にも正確」という前提が、データによって否定される結果となりました。
一方で前向きな発見もあります。汎用動画生成モデルの一部がロボット特化モデルに匹敵する成功率を達成しており、インターネット上の膨大な動画データから学習した事前分布が、意味のある物理知識を内包していることを示唆しています。
失敗モードの分類
実行失敗の原因は3つのパターンに分類されています。物体浮遊は、物体が重力や接触面との関係を無視して浮かび上がるケースです。ファントムグラスプは実際には接触していないのに物体が把持されたように見える現象で、動画上は成功しているように見えても軌跡への変換で破綻します。キネマティック破綻は、ロボットアームの関節が物理的にあり得ない角度で描写される問題です。

これらの失敗は「見た目の品質評価では検出できない」という共通点があります。LoomVideoのような最新の動画生成・編集手法が視覚品質や生成速度で高い性能を示していても、Dream.exeが問うような物理的整合性は独立した問題として残ります。失敗パターンを系統的に分類したことで、今後のモデル改善に向けた具体的な指針が得られました。
まとめと今後の展望
Dream.exeが示した最大の貢献は、「視覚的品質と物理的実行可能性は独立した軸である」という事実を大規模な実験で実証したことです。これは動画生成AIを世界モデルとして活用しようとする研究にとって、評価基準の再設計を促す重要な指摘となります。
汎用モデルがロボット特化モデルと競合する成功率を示したことは、専用データを収集せずとも物理知識を獲得できる可能性を示唆しています。この知見は、ロボット学習や自律エージェントの研究において、汎用動画生成モデルを物理シミュレータや世界モデルとして活用する方向性を後押しするものです。
評価フレームワークとデータセットはオープンソースとして公開予定で、再現性が確保されています。物理的実行可能性という新しい評価軸が普及することで、動画生成AIの研究開発がより実世界に根ざした方向へ進むことが期待されます。
