TetherCacheとは？長尺動画の品質ドリフトを訓練なしで抑えるKVキャッシュ管理手法

KVキャッシュをSink・Memory・Recentの3領域に分割し、過去フレームの参照情報を効率的に管理することで品質ドリフトを根本から抑制
GRABが関連性と時間的多様性を組み合わせて重要フレームをMemoryに選択し、TAMEがSinkの統計を基準に分布ズレを補正してクリーンな条件付けを実現
VBench-Longの240秒生成で品質ドリフトスコアを7.84から1.33に削減し、追加学習なしで既存モデルに組み込める

長尺動画生成が抱える問題

動画生成AIの性能が向上するにつれて、数秒から数分にわたる長尺動画の生成が現実的な目標になってきました。しかし、自己回帰型の動画拡散モデルを使って長い映像を生成しようとすると、「品質ドリフト」と呼ばれる現象が深刻な課題となります。

品質ドリフトとは、生成が進むにつれて映像の視覚的な品質が徐々に劣化していく現象です。自己回帰生成では、直前に生成したフレームを条件として次のフレームを作り続けます。この仕組みの性質上、生成フレームに含まれる微小なズレや誤差が蓄積し、後半になるほど色むら・ノイズ・構造的な破綻として現れてきます。

図1: 潜在空間における統計値のドリフト分析。生成フレーム数が増えるほど平均値と標準偏差が初期値から大きくかけ離れていく様子が分かる。

このドリフトの根本的な原因は、自己生成したフレームへの繰り返しの条件付けにより、モデルが参照するコンテキスト（文脈情報）の分布が訓練時とズレていくことにあります。KVキャッシュ（Key-Valueキャッシュ。Transformerが過去の情報を参照するためのメモリ機構）の管理をどのように行うかが、この問題を解決する鍵となります。

TetherCacheの設計思想

TetherCacheは、訓練を一切必要とせず既存の自己回帰型動画生成モデルにそのまま組み込めるフレームワークです。固定サイズのKVキャッシュを3つの役割の異なる領域に分けて管理するという構造が中心的なアイデアになっています。

Sink（アンカー領域）には、生成の最初期フレームに対応するKVトークンを固定して保持します。これは、コンテキストが正常だった時点の統計情報を「信頼できる基準点」として確保するためです。Memory（長期記憶領域）には、長期参照に使われる重要なフレーム情報を蓄積します。そしてRecent（直近領域）が直前フレームのキャッシュを保持し、自然な連続性を担保します。

図2: TetherCacheの全体構成。KVキャッシュをSink・Memory・Recentの3領域に分割し、GRABが重要フレームをMemoryに呼び戻し、TAMEがSinkの統計を基準に分布を補正する。

GRABとTAMEの仕組み

TetherCacheを支えるのが、GRAB（Gated Recall with Attention-Diversity Balancing）とTAME（Trusted Alignment via Memory Editing）という2つのメカニズムです。

GRABは「どの過去フレームをMemoryに残すか」を決める選択機構です。直感的には「現在のフレームと似たフレームを保存すればよい」と思えますが、それだけでは情報が偏ってしまいます。GRABはAttentionスコアを使った関連性の評価に加え、時間的な多様性も考慮したゲートスコアで選択します。似たフレームばかりでなく、時間軸全体をバランスよくカバーする参照フレームを保持することで、長い動画全体を通した一貫性を維持します。

TAMEは「呼び出した記憶をそのまま使わない」ための補正機構です。Memoryから取り出したトークンは、生成が進む中でドリフトした分布を含んでいる可能性があります。そこでTAMEはSinkに保存した初期フレームの統計情報を信頼できる基準として使い、Memoryトークンの分布を軽量な編集処理で正規化してから利用します。これにより、ドリフトした参照情報が新しいフレームの生成を汚染することを防ぎます。

VBench-Longでの実験結果

実験はVBench-Longベンチマークで行われ、30秒・60秒・240秒の3種類の生成長で評価されました。比較対象には、単純なFIFO方式（先入れ先出し）でキャッシュを管理する手法、注意スコアのみで選択する手法などが含まれます。

図3: ベースライン手法との定性的な比較。TetherCacheは長尺生成の後半でも視覚的な品質を保ち、他手法で目立つアーティファクトの蓄積が抑制されている。

最も際立った結果は240秒（4分）の設定です。品質ドリフトスコアがベースライン手法の7.84に対して、TetherCacheでは1.33まで低下しました。スコアが小さいほど劣化が少ないことを意味し、約83%の改善を達成しています。30秒・60秒の設定でも一貫した改善が確認されており、生成時間によらず安定した効果が得られます。

アブレーション実験では、GRABとTAMEをそれぞれ単独で適用した場合よりも、2つを組み合わせたときに最も高い改善が得られることが確認されています。また、長尺動画を理解するモデルへの需要が高まる中で、Keye-VL-2.0のような256Kコンテキストを扱うモデルとの相互活用も今後の展望として考えられます。