ImageWAMとは？画像編集KVキャッシュでロボット制御のFLOPs 1/6・推論遅延1/4を実現

World Action Modelの動画生成を画像編集に置き換え、FLOPs 1/6・推論遅延1/4（A6000 GPU上で263ms対1081ms）を達成
画像編集デノイジング中のKVキャッシュをFlow Matchingアクション予測器がJoint Attentionで参照する2モジュール構成
LIBERO 98.4%・RoboTwin 2.0 93.38%・実機ロボット84.5%の成功率でビデオWAMやπ₀を大幅に上回る

研究の背景と問い

ロボットが「次に何をすべきか」を決めるには、現在の視覚観測から将来の世界状態を予測する能力が重要です。この目的で近年注目されているのが、World Action Model（WAM、世界行動モデル）と呼ばれるアーキテクチャです。WAMはロボットが取りうる行動と、その後の世界の変化を結びつけて学習します。

従来のWAMは将来のビデオフレームを丸ごと生成することで世界の変化を表現しようとしていました。しかしこのアプローチには3つの問題があります。計算コストが高いこと、タスクと無関係な視覚的詳細にもモデル容量を消費すること、そして長い時間スケールになるほど予測誤差が蓄積しやすいことです。

ImageWAMの著者たちはここに根本的な疑問を投げかけます。「世界行動モデルに動画生成は本当に必要なのか、それとも単一フレームの画像編集で十分ではないか」。この問いに実験で答えたのが本論文です。

図1: 従来の動画生成型WAM（左）とImageWAM（右）の比較。動画WAMが将来フレームを密に予測するのに対し、ImageWAMは画像編集によりコンパクトな表現で行動条件付けを行う

ImageWAMの仕組み

ImageWAMは2つのモジュールで構成されます。一つは事前学習済みの画像編集バックボーン（OmniGen2、FLUX.2、Ovis-U1などを利用）、もう一つはアクション予測器（Action Expert）です。

処理の流れはシンプルです。まず言語指示と現在のカメラ観測画像を入力として、画像編集モデルが「タスク完了後に観測されるであろうフレーム」を合成します。このとき重要なのは、生成された画像そのものではなく、生成プロセス中のデノイジング計算で得られるKVキャッシュ（Key-Value中間表現）を使う点です。このキャッシュには画像のどこにどんな変化が起きたかという情報が凝縮されています。

アクション予測器はこのKVキャッシュをJoint Attention（複数の入力を合わせて注目する仕組み）で受け取り、現在のロボット状態と組み合わせてFlow Matching（確率的流れを使った行動生成手法）で一連の行動シーケンスを予測します。学習時は画像編集の損失と行動予測の損失を同時に最適化します。

図2: ImageWAMのパイプライン。画像編集バックボーンが生成した将来フレームのKVキャッシュをアクション予測器がJoint Attentionで参照し、行動シーケンスを出力する

なぜKVキャッシュで十分か

直感的に理解するために、画像編集の特性を考えてみましょう。「コップを棚から取り出す」という指示があったとき、画像編集モデルはコップが消えた、あるいは手に持たれた状態の画像を生成します。このとき変化しているのは画面内のごく一部、コップとその周辺だけです。

KVキャッシュにはまさにこの「どこが、どのように変化したか」という編集情報が格納されています。動画のように全フレームを密に生成する必要なく、タスクに関連した変化だけを圧縮して保持できます。アテンション可視化の実験でも、編集KVキャッシュがタスク関連の変化領域に自然と集中することが確認されました。

図4: アテンション可視化の結果。ImageWAMの編集KVキャッシュはタスクに関連した変化領域に集中して注目していることが示されている

実験設定と結果

評価はシミュレーションと実機の両方で行われました。シミュレーション環境はLIBERO（Spatial・Object・Goal・Long-Horizonの4スイート）、摂動テスト用のLIBERO-Plus、50以上の両腕タスクを含むRoboTwin 2.0の3種類です。実機実験ではDobot XTrainerという双腕ロボットで4つのマニピュレーションタスクを各100デモで評価しています。

図3: 実験環境の概要。RoboTwin 2.0、LIBERO、LIBERO-Plus、実機ロボットでの検証が行われた

主な成功率の結果は以下のとおりです。

LIBERO全スイート平均: 98.4%
LIBERO-Plus: 83.1%（FastWAMベースライン比で優位）
RoboTwin 2.0: 平均93.38%（クリーン設定93.20%、ランダム設定93.56%）
実機ロボット: 84.5%（π₀の55.8%、π₀.₅の72.3%を大幅に上回る）

計算効率の面では、FLOPsを動画WAMの1/6に、推論遅延を1/4（1081msから263ms）に削減できています。また、動画WAMが生成する将来フレームにアーティファクト（歪み・欠陥）が生じ、それが誤った行動条件付けにつながる失敗ケースも報告されています。ImageWAMはそもそも密な将来フレーム生成を行わないため、こうした問題を構造的に回避できます。

図5: 動画WAMの失敗例とImageWAMの比較。動画WAMはタスク関連物体周辺に歪みが生じて行動予測を誤るが、ImageWAMはコンパクトな編集キャッシュを使うためこの問題を回避できる

まとめと今後の展望

ImageWAMは「World Action Modelに動画生成は不要である」という仮説を実験で裏付け、画像編集のKVキャッシュという代替表現の有効性を示しました。事前学習済み画像編集モデルをそのまま再利用する設計は、追加の学習コストを抑えながら高い汎化性能を引き出せる点でも実用的です。

Kairosなどの物理AI向け世界モデルが時間軸の長期依存をいかに扱うかを追求するのとは対照的に、ImageWAMは「そもそも何を表現すべきか」という設計の出発点そのものを問い直した点に独自性があります。

課題として、現状では単一の将来フレームを生成するため、多段階の長いタスクへの対応には追加の工夫が求められる可能性があります。また、使用する画像編集バックボーンの品質が行動予測精度に直接影響する点も今後の検討事項です。それでも、シンプルな発想の転換で大幅な効率改善と高い制御精度を両立した本手法は、ロボット制御とマルチモーダルAIの双方で注目に値する成果です。