Dream.exeとは？動画生成AIの物理実行可能性を問う新評価フレームワーク

視覚的品質スコアと実行成功率のPearson相関はr=−0.03とほぼゼロで、「見栄えの良い動画≠物理的に正しい動画」を101タスク・8モデルの実験で定量的に実証した
生成動画から2Dトラックレット→3D軌跡→7次元ロボット軌跡へ変換し、物理シミュレータで実際に実行することで客観的な評価を完全自動化するパイプラインを構築
汎用動画生成モデルがロボット特化モデルに匹敵する成功率を達成し、インターネット規模の学習データが物理的な世界知識を内包することを確認

研究の背景と課題意識

動画生成AIの品質評価はこれまで「どれだけ自然に見えるか」を基準としてきました。FID（Fréchet Inception Distance、生成画像の統計的品質を測る指標）やFVD（動画版のFID相当）、人間による視覚評価が広く使われてきましたが、これらは本質的に「見た目の良さ」しか測っていません。

近年の動画生成モデルは「世界モデル（World Model）」としての役割を期待されています。世界モデルとは、物理的な因果関係や物体の動き、接触の仕組みを内部で理解したモデルのことですが、従来の評価指標ではモデルが物理法則を実際に理解しているのか、見た目だけを学習しているのかを判別できませんでした。

Dream.exeはこの問いに正面から向き合います。ロボット操作という「物理的に正しくなければ成立しないタスク」を評価軸に据え、動画生成モデルが出力した映像から実際にロボットを動かすことで、物理的実行可能性を定量化する新たなフレームワークです。

図1: Dream.exeタスクスイートの概要。左は各難易度レベルの代表的なシーンとタスク指示。右上は101タスクの3段階難易度分布。右下はシーン間でカメラ視点を意図的に多様化させ、汎化評価の網羅性を高めている様子

評価フレームワークの設計

Dream.exeは101件のロボット操作タスクを3段階の難易度で構成しています。Level 1は単一物体の把持・配置といった基本動作、Level 2は複数物体の積み重ねや容器への配置といった相互作用、Level 3は引き出しを開けてから物体を取り出すといった複数段階の複合タスクです。さまざまなカメラ視点が意図的に採用されており、特定の視点に依存しない汎化評価を実現しています。

評価の流れはシンプルながら精緻に設計されています。まず初期シーン画像とタスク指示文を動画生成モデルに与え、ロボット操作の様子を映した動画を生成させます。次にその動画から視覚的品質と物理的妥当性を評価しながら、含まれる動きを軌跡として抽出します。最後にその軌跡を物理シミュレータで再生し、タスクが成功したかどうかを最終的な評価基準とします。

図2: Dream.exeの評価パイプライン。初期シーン画像とタスク指示から動画生成モデルが操作動画を生成し、視覚品質・物理妥当性の評価と軌跡抽出を経て、物理シミュレータでの実行成否を最終判定とする

軌跡の抽出には複数のコンピュータビジョン技術が組み合わせて使われています。生成動画上で物体や手先の動きを2次元の点列（トラックレット）として追跡し、深度推定によって3次元座標へ変換します。さらに手先の回転角度とグリッパーの開閉情報を合わせて7次元の実行可能軌跡へと変換し、シミュレータで再生します。この一連の変換を自動化することで、人手に頼らない客観的な評価を可能にしています。

図4: 動画から実行への詳細パイプライン。生成動画を2Dトラックレット→深度推定→3D点軌跡→手先回転→グリッパー動作へ変換し、7次元の実行可能軌跡としてシミュレータで再生する全処理の構成

実験結果

評価対象は8種類のモデルです。閉鎖型モデルとしてHailuo 2.3、Kling 3.0、Wan 2.7、SeedDance 2.0、Veo 3.1の5種類、オープンソースモデルとしてWan 2.2とLTX-Video 2.3の2種類、そしてロボット専用モデルとしてCosmos Policyが含まれます。

成功率はタスクの難易度によって大きく異なります。Level 1ではロボット特化のCosmosPolicy-BenchCamが20.8%で最高を記録し、Level 2ではSeedDance 2.0とWan 2.7が21.4%を達成しました。Level 3になるとKling 3.0のみが6.2%の成功率を示すという厳しい結果で、複合タスクの難しさが浮き彫りになっています。

最も重要な発見は、視覚的品質スコアと実行成功率のPearson相関係数がr=−0.03とほぼゼロであることです。LTX-Video 2.3は物理的妥当性の評価で全モデル中1位を獲得しながら、実行成功率は最下位でした。Veo 3.1はタスク遵守スコアが最高でも、Level 1での成功率は3.3%に留まっています。「視覚的に良い動画を生成できるモデルが物理的にも正確」という前提が、データによって否定される結果となりました。

一方で前向きな発見もあります。汎用動画生成モデルの一部がロボット特化モデルに匹敵する成功率を達成しており、インターネット上の膨大な動画データから学習した事前分布が、意味のある物理知識を内包していることを示唆しています。

失敗モードの分類

実行失敗の原因は3つのパターンに分類されています。物体浮遊は、物体が重力や接触面との関係を無視して浮かび上がるケースです。ファントムグラスプは実際には接触していないのに物体が把持されたように見える現象で、動画上は成功しているように見えても軌跡への変換で破綻します。キネマティック破綻は、ロボットアームの関節が物理的にあり得ない角度で描写される問題です。

図5: 動画から実行への定性的な例。成功例（上段）は視覚的に整合した動きが実行可能な軌跡に変換されてタスクを完了。失敗例（下段）はロボットジオメトリの不整合・物体状態のハルシネーション・不確かな接触情報が軌跡抽出を通じて実行失敗につながる様子を示す

これらの失敗は「見た目の品質評価では検出できない」という共通点があります。LoomVideoのような最新の動画生成・編集手法が視覚品質や生成速度で高い性能を示していても、Dream.exeが問うような物理的整合性は独立した問題として残ります。失敗パターンを系統的に分類したことで、今後のモデル改善に向けた具体的な指針が得られました。

まとめと今後の展望

Dream.exeが示した最大の貢献は、「視覚的品質と物理的実行可能性は独立した軸である」という事実を大規模な実験で実証したことです。これは動画生成AIを世界モデルとして活用しようとする研究にとって、評価基準の再設計を促す重要な指摘となります。

汎用モデルがロボット特化モデルと競合する成功率を示したことは、専用データを収集せずとも物理知識を獲得できる可能性を示唆しています。この知見は、ロボット学習や自律エージェントの研究において、汎用動画生成モデルを物理シミュレータや世界モデルとして活用する方向性を後押しするものです。

評価フレームワークとデータセットはオープンソースとして公開予定で、再現性が確保されています。物理的実行可能性という新しい評価軸が普及することで、動画生成AIの研究開発がより実世界に根ざした方向へ進むことが期待されます。

Dream.exe: Can Video Generation Models Dream Executable Robot Manipulation?

Abstract page for arXiv paper 2606.04811: Dream.exe: Can Video Generation Models Dream Executable Robot Manipulation?

arxiv.org

視覚的品質スコアと実行成功率のPearson相関はr=−0.03とほぼゼロで、「見栄えの良い動画≠物理的に正しい動画」を101タスク・8モデルの実験で定量的に実証した
生成動画から2Dトラックレット→3D軌跡→7次元ロボット軌跡へ変換し、物理シミュレータで実際に実行することで客観的な評価を完全自動化するパイプラインを構築
汎用動画生成モデルがロボット特化モデルに匹敵する成功率を達成し、インターネット規模の学習データが物理的な世界知識を内包することを確認