- 学習可能な進化型メモリクエリが過去フレームを固定コストで動的圧縮し、24時間超(130万フレーム以上)の動画をリアルタイム生成することに初めて成功
- Unified Relative RoPEで位置エンコーディングの外挿問題を解決し、学習時の最大長を超えた動画でも安定した品質を維持
- 短尺・長尺の両ベンチマークでSoTAを達成。ライブストリーミングや長尺コンテンツ制作など幅広い応用が期待される
研究の背景
動画生成AIの進化は目覚ましい一方、生成できる動画の長さには明確な壁がありました。現在の主流手法では数秒から長くても数十秒程度が上限で、それ以上を目指すとメモリ消費量が爆発的に増加し、計算コストが現実的な範囲を超えてしまいます。
問題の本質は、過去のフレーム情報をどのように扱うかにあります。自己回帰型の動画生成モデルでは、新しいフレームを生成するたびに過去の全フレームを参照する必要があります。動画が長くなるほど参照すべきフレーム数が増え、計算コストは線形かそれ以上の速度で増大します。固定サイズのウィンドウで参照範囲を制限する手法もありますが、遠い過去の重要な情報が失われ、シーンの一貫性が損なわれる別の課題が生じます。
こうした課題を根本から解決し、計算コストを一定に保ちながら任意の長さの動画を生成できるフレームワークとして、Echo-Infinityが提案されました。
提案手法:進化型メモリクエリ
Echo-Infinityの核心は、「学習可能な進化型メモリクエリ(Learnable Evolving Memory Query)」と呼ばれる記憶機構です。この仕組みは人間の記憶統合プロセス、つまり脳が経験した情報を重要度に応じて選別・整理・圧縮する働きからヒントを得ています。
具体的には、Attention機構(入力の中で重要な部分に選択的に注目する仕組み)とゲーティング機構(情報の流入・流出を動的に制御する仕組み)を組み合わせた構造により、過去の任意長のフレーム履歴を固定サイズのメモリトークン群へと圧縮・抽象化します。このメモリは動画の生成が進むにつれて継続的に更新され、新しい文脈に応じて保持する情報の優先度を動的に変化させます。
メモリサイズが固定されているため、動画が1分であっても24時間であっても必要な計算コストは変わりません。これにより、理論的には無限長の動画生成が現実的な計算資源の範囲内で可能になります。同様の記憶統合というアイデアは、Hopeフレームワーク(人間の睡眠を模した記憶統合でLLM継続学習を実現する研究)のようにLLMの継続学習にも応用されており、脳の記憶処理を模倣するアプローチがAI全般で注目を集めています。

位置エンコーディングの外挿問題
長尺動画生成にはメモリコスト以外にも重要な技術的課題があります。現代の動画生成モデルの多くは、RoPE(Rotary Positional Embedding、回転型位置エンコーディング)という方式でフレームの位置情報を表現します。この方式では、学習時に見たことのない長さの動画を生成しようとすると、位置情報が想定外の範囲に突入して品質が急激に低下する「外挿問題」が発生します。
Echo-InfinityはこれをUnified Relative RoPEという統一的な手法で解決しています。空間方向(フレーム内のピクセル位置)と時間方向(フレームの順序)の両方において、絶対的な位置ではなく相対的な位置関係に基づいて情報を処理することで、学習時の最大長に縛られない安定した動作を実現します。シンプルながら効果的な設計で、DiT(Diffusion Transformer、拡散モデルとTransformerを組み合わせたアーキテクチャ)ベースの既存モデルに組み込みやすい汎用性も持ちます。
実験結果
Echo-Infinityは24時間分の動画(130万フレーム以上に相当)をリアルタイムで生成することに世界で初めて成功しました。従来の手法では数分程度が現実的な上限でしたが、これを数百倍以上の長さで超えた成果です。
定量的な評価でも、短尺動画生成のベンチマークと長尺動画生成のベンチマークの両方で最高水準の結果を達成しています。特に長尺生成において、自己回帰型モデルが抱えやすい誤差の蓄積や一貫性の喪失を大幅に抑えられることが示されました。また、任意の圧縮比に対応しながら計算コストを一定に保てるため、リアルタイムのストリーミング生成という実用的な場面でも動作します。
まとめと今後の展望
Echo-Infinityは、長尺動画生成における2つの根本課題(メモリコストの爆発と位置エンコーディングの外挿)を独立した手法でそれぞれ解決し、24時間超のリアルタイム動画生成を初めて実現したフレームワークです。
応用可能性は幅広く、ライブストリーミング動画の自動生成、長編コンテンツの制作支援、仮想環境の無限シミュレーション、ゲームの手続き的動画生成などが考えられます。一方で、長時間にわたる特定キャラクターや物体の見た目の一貫性をどこまで維持できるか、またメモリクエリがどのような情報を優先的に保持しているかの解釈可能性については、さらなる研究が求められます。
