- スライディングウィンドウ・拡張ウィンドウ・ゲート線形注意の3種を組み合わせ、長期動画生成での誤差蓄積の上限を数学的に保証したハイブリッド時間アーキテクチャ
- オープンワールド動画・人間デモ・ロボット操作データを3段階で統合する「クロス実体データカリキュラム」で、単腕・双腕・人型など多様なロボット形態に対応
- WorldModelBench・RoboTwin 2.0・DreamGen Benchなど複数のベンチマークで最高水準の性能を達成し、標準ハードウェアでのリアルタイム展開を実現
研究の背景
ロボットや自律システムが現実世界で動作するには、「世界モデル」と呼ばれる仕組みが欠かせません。世界モデルとは、環境の将来状態を予測するための内部表現であり、ロボットが次の行動を計画する際の基盤となります。
従来の世界モデルは高品質な動画生成に優れる一方、大きな課題が2つありました。一つは長時間の動作中に誤差が蓄積し、予測精度が急速に低下する問題、もう一つは計算コストが高くロボットへの実装が難しい点です。映像を生成するだけのモデルから、持続的な状態を保ちながらロボット制御に使える「運用インフラ」へと進化させることが求められていました。

3層ハイブリッド時間アーキテクチャ
Kairosの中核となるのが、異なる時間スケールを扱う3種の注意機構(Attention機構)を組み合わせた「ハイブリッド線形時間注意」です。
スライディングウィンドウ注意(SWA)は直近のフレームのみを参照し、細かな動きのパターンを効率よく捉えます。拡張スライディングウィンドウ注意(DSWA)は参照する間隔を広げることで、数秒先の動作の一貫性といった中距離の依存関係を取り込みます。そしてゲート付き線形注意(GLA)が、線形計算量で長期的なグローバル記憶を維持します。
GLAの核心は「ゲーティング」にあります。過去の状態をどの程度「忘れる」かを適応的に制御し、古い情報を適切に削除しながら新しい情報を書き込む仕組みです。標準的なTransformerが系列長の2乗で計算量が増えるのに対し、GLAは線形で済むため、長時間の動画生成でも処理速度が安定します。

誤差蓄積の理論的保証
Kairosの重要な貢献の一つが、誤差蓄積に対する理論的な上限の証明です。論文では2つの定理を提示しています。
定理1は「スライディングウィンドウだけでは不十分で、永続的なメモリが必要」であることを数学的に示します。定理2は、提案するハイブリッドメモリを用いれば余剰リスクが (Lε + LGξ̄/(1−ρ))² 以内に収まることを保証します。GLAの「幾何学的減衰」により、過去の誤差が時間とともに指数的に小さくなるため、長時間動作しても誤差が無制限に膨らまないことが数式で裏付けられています。
理論と実装の両面で保証を与えた点は、既存の世界モデル研究と大きく異なります。実際の運用現場では予測誤差の制御が安全性に直結するため、この理論的裏付けは実用上も意義があります。
クロス実体データカリキュラム
多様なロボット形態に対応するには、質・量ともに充実した学習データが必要です。Kairosは「クロス実体データカリキュラム(CEDC)」と呼ぶ3段階の学習戦略を採用しています。
第1段階では大量のオープンワールド動画から物理法則の基礎知識を習得します。第2段階では人間の動作デモンストレーションから行動の文脈と意図を学びます。そして第3段階でロボット操作データを用いて実機への適用力を獲得します。段階ごとに解像度と動画長を徐々に引き上げることで、基礎から応用へとスムーズに知識を積み上げます。Strands Robots SDKのようなオープンな実機展開基盤と組み合わせると、学習済みモデルを様々なロボットに素早く適用できるでしょう。

実験結果
Kairosは複数のベンチマークで競合手法を上回る性能を示しました。ロボット操作を評価するLIBERO-plusとRoboTwin 2.0、長期動画予測を評価するWorldModelBench、動画生成品質を評価するDreamGen Benchのいずれでも最高水準の結果を達成しています。
計算効率の面では、標準的なTransformerが系列長の2乗で処理量が増えるのに対し、Kairosは線形スケールを維持します。これにより消費者向け・サーバー向けの両ハードウェアでリアルタイム展開が可能となりました。

まとめと今後の展望
Kairosは世界モデルを「映像生成器」から「物理AIの運用インフラ」へと位置付け直した研究です。ハイブリッド時間アーキテクチャによる誤差蓄積の理論保証、段階的データカリキュラム、そして標準ハードウェア上でのリアルタイム動作という3つの柱が有機的に結びついています。
論文ではさらに「自己進化フレームワーク」として、実機ロールアウト・評価・改善のクローズドループで継続的に性能を向上できる設計も示されており、将来の自律学習型ロボットへの布石となっています。HuggingFace Daily Papersで730いいねを獲得した注目度の高さも、物理AI研究コミュニティの関心の大きさを示しています。
