WorldKVとは？カメラ情報でKVキャッシュを選別し動画世界モデルを2倍高速化

動画世界モデルの長時間推論でKVキャッシュが際限なく膨張する問題を、退避・取得・圧縮の仕組みで解決するWorldKVをKAISTが提案
カメラ・行動情報で関連チャンクを選ぶ「World Retrieval」と、アンカーフレームとのコサイン類似度でトークンを削る「World Compression」の2機構を組み合わせる
訓練不要で既存モデルに適用でき、LingBot-World-Fast 14BでフルKV保持と同等品質を維持しながらスループットを4.78 FPS（従来比約2倍）に向上

動画世界モデルのKVキャッシュ問題

ゲームAIや自律ロボットなどに使われる「動画世界モデル」は、過去の視覚的な観測を記憶しながら連続したフレームをリアルタイムに生成するシステムです。こうしたモデルでは過去の情報を保持するためにKVキャッシュ（Key-Valueキャッシュ）と呼ばれる中間データを活用しますが、生成を続けるほどキャッシュが累積し、長時間では200GBを超えることもあります。

この問題への既存の対処法が「スライディングウィンドウ」方式です。古いキャッシュを順次切り捨てることでメモリを抑えますが、一度通過したシーンにカメラを戻したときに記憶が失われるため、再訪時の映像が大きく崩れるという致命的な欠点があります。KAISTの研究チームが提案するWorldKVは、この品質とスループットのトレードオフを同時に解消することを目指しています。

WorldKVの全体設計

WorldKVは、スライディングウィンドウの注意ウィンドウからあふれたKVキャッシュを捨てずにGPUまたはCPUメモリへ退避させ、必要なときに選択的に読み出す設計を採っています。2つの独立した機構を組み合わせて動作します。

図1: WorldKVの全体構成。World Retrieval（左）はチャンクを圧縮して保存し、視点が近いチャンクを注意ウィンドウに挿入する。World Compression（右）は各チャンクの最初のフレームをアンカーとして類似度が低いトークンのみを保持する。

World Retrieval: 視点に応じた記憶の取り出し

退避したキャッシュはチャンク（フレーム塊）単位で管理されます。新たなフレームを生成する際、現在のカメラ姿勢とエージェントの行動を基準に、保存済みの各チャンクとの類似度を計算し、上位k個を注意ウィンドウへ挿入します。カメラ姿勢の比較には平行移動のL2距離と回転の測地距離を組み合わせます。

この設計の背景には、論文が実験で確認したモデルの注意パターンがあります。「右移動→停止→左移動」という行動シーケンスを与えたとき、モデルは現在の視点と重なる過去チャンクに集中して注意を向けていました。この観察が、カメラ・行動情報を取得基準に採用する根拠となっています。

図2: 行動シーケンス「右移動→停止→左移動→停止→右移動」に対する注意マップ。現在の行動・視点に一致するチャンクに高い注意が集まる様子が確認できる。

World Compression: 冗長トークンの除去

注意ウィンドウの容量は有限であるため、より多くの歴史的チャンクを格納するにはチャンク自体を小さくする必要があります。World Compressionでは各チャンクの最初のフレームを「アンカー」として固定し、それ以降のフレームに含まれる各トークンについてアンカーフレームのKeyとのコサイン類似度を計算します。類似度が高いトークンはアンカーとほぼ同じ情報を持つ冗長な要素として除去します。

逆に、類似度が低いトークン、つまりカメラ移動で新たに視野に入った領域や動きのある物体など、アンカーには存在しない新情報を持つトークンのみを保持します。この操作により3フレーム分のチャンクを約1.5フレーム相当に圧縮でき、固定のウィンドウ予算内に格納できるチャンク数が約2倍になります。

図3: Matrix-Game-2.0とLingBot-World-FastでのKey間コサイン類似度の可視化。黄色のパッチはアンカーフレームとの類似度が下位12.5%のトークンで、カメラ移動で現れた新領域や動的な変化を捉えている。

実験結果と定量評価

研究チームは2つのモデルでWorldKVを検証しました。LingBot-World-Fast（14Bパラメータ）では、フレームレートがフルKV保持の2.36 FPSから4.78 FPSへ約2倍向上しました。品質指標のLPIPS・PSNR・SSIMはフルKVとほぼ同等を維持し、FIDはフルKVの85.7を下回る75.6を記録しています。スライディングウィンドウとの差はさらに大きく、LPIPSで0.455対0.581、FIDで75.6対144.0と、再訪時の映像品質が大幅に改善されました。

Matrix-Game-2.0（1.3Bパラメータ）では、WorldKVがフルKV保持を品質面でも上回るという結果が得られました（LPIPS: 0.462対0.529、FID: 93.6対124.9）。短いシーケンスで学習されたモデルが、フルKVによって長時間生成で学習分布を超えた劣化キャッシュを蓄積してしまうのに対して、WorldKVは関連チャンクのみを選択的に取得するため、不要なノイズを回避できるためです。

図4: 2つのトラジェクトリにおけるフレームごとの手法比較。WorldKVはフルKVに匹敵する細部を保ちながら、スライディングウィンドウで生じる映像の崩れを回避している。

アブレーション実験では、圧縮比の設定が性能に大きく影響することも示されました。6チャンクを3チャンク相当に圧縮する設定（6→3）が最良となり（LPIPS 0.455、FID 75.6）、圧縮しない3→3（LPIPS 0.468、FID 91.4）や積極的に圧縮する9→3（LPIPS 0.482、FID 101.2）を上回りました。少数のチャンクを高解像度で保持するより、圧縮してでも幅広い時間範囲をカバーする方が映像品質に寄与するという知見が得られています。

Inspatio-Worldへの適用

WorldKVの汎用性を示す例として、研究チームはビデオから4D空間のノベルビュー映像を生成するInspatio-Worldにも適用を試みています。Inspatio-Worldは固定カメラの入力動画から新規視点の映像を生成できますが、同じ視点を繰り返し訪れると場面の記憶を維持できず、物体の形状や配置が変化してしまう問題がありました。

WorldKVを適用すると、ファインチューニングなしで再訪時の場面一貫性が大幅に改善しました。視点ごとに保持すべきKVキャッシュを選択的に取得する仕組みが、4D世界モデルにもそのまま有効に機能することを示しており、手法の適用範囲の広さを裏付けています。RTPurboのように注意計算自体を疎化する手法とは異なり、WorldKVはモデル構造に変更を加えず既存の自己回帰的ビデオ拡散モデルであれば幅広く導入できます。