- 動画VLMの推論ボトルネックは視覚エンコーダにあることを特定し、エンコーダ内部での早期トークン圧縮によりTTFTを最大2.65倍短縮
- 「アテンションシンク」現象を考慮した分離型空間トークン選択で、既存Top-K手法が抱える精度劣化の問題を回避
- 追加学習不要で既存モデルに即時適用でき、FLOPsを最大61%削減しながら4ベンチマーク平均精度の96.2%を維持
推論ボトルネックはどこにあるか
動画を理解するマルチモーダルLLM(Video-LLM)は急速に性能が向上していますが、推論速度の改善は後回しにされがちでした。EarlyTomの研究チームがTTFT(Time-to-First-Token、初回応答時間)の内訳を詳しく計測したところ、想定外の結果が出ました。ベースラインモデルでは視覚エンコーダの処理だけで全体の36.3%を占めており、LLM本体ではなく映像解析のステージが最大の律速段階になっていたのです。
この事実は既存の高速化手法を再評価するきっかけにもなりました。HoliTomやVisionZipのような「後段圧縮」手法は、エンコーダが出力した後のトークン列を削減します。しかし視覚エンコーダそのものの計算コストは変わらないため、これらの手法を使うとエンコーダが占める割合が55〜68%へと逆に増加するという状況が生まれていました。EarlyTomはこの構造的な問題を解消するために、エンコーダの内側でトークンを圧縮する「早期圧縮」を提案しています。

アテンションシンク現象と問題点
動画処理に使われる視覚エンコーダ(SigLIPなど)のアテンション(注意機構)を可視化すると、特定の空間位置が時系列全体を通じて常に高スコアを集め続ける現象が観察されます。論文はこれを「アテンションシンク」と呼んでいます。ヒートマップで見ると縦縞として現れ、フレームの内容が変わっても固定した位置のトークンが注目を独占する構造になっています。
既存のTop-K選択(スコアが高い上位Kトークンのみ残す手法)をそのまま適用すると、シンクトークンが優先されて他のフレームの意味情報が大量に失われ、動画全体の文脈理解に偏りが生じます。EarlyTomの空間圧縮ステージは、このバイアスを正面から解決するために設計されています。

EarlyTomの2段階圧縮処理
ステージ1(エンコーダ内フレームマージ)では、視覚エンコーダの処理中にフレーム間のコサイン類似度をストリーミングで計算します。指数移動平均でフレームの境界を検出し、変化が少ない冗長な中間フレームを「最適マージ基準」で選んで統合します。単純に削除するのではなく類似度に応じた重み付き融合を行うため、情報の損失を抑えながら時間方向の冗長性を除去できます。
ステージ2(分離型空間トークン選択)では、マージ後のフレームを「動的フレーム(シーンの変化が大きい)」と「静的フレーム(変化が小さい)」に分けて異なる選択戦略を適用します。動的フレームにはアテンションシンクの影響を受けにくいグローバルTop-K選択を使い、動き情報を優先します。静的フレームにはローカルウィンドウ内のTop-K選択で空間的な分布を均等に保ちます。外部エンコーダをなくす方向を探るNEO-ovのようなアプローチとは異なり、EarlyTomは既存のエンコーダアーキテクチャを前提とした実用的な設計を取っています。

精度維持と大幅な高速化の両立
LLaVA-OneVision-7BをNVIDIA A100 GPUで評価した結果、トークン保持率10%の条件でTTFTは889.9msから336.2msへと2.65倍短縮しました。FLOPsは82.6兆から32.2兆へと約61%削減され、スループットは31.6トークン/秒を記録しています。MVBench、EgoSchema、LongVideoBench、VideoMMEの4ベンチマーク平均スコアはベースラインの96.2%を維持しており、実用上十分な精度を保っています。
HoliTomやVisionZipといった最先端の後段圧縮手法と比較すると、EarlyTomはFLOPsとスループットの両面で上回っています。特に追加の学習やファインチューニングが一切不要なため、既存モデルに即時適用できる点が実用上の大きな強みです。トークン保持率を15〜25%に上げると精度はさらに向上し、速度と精度のバランスを用途に応じて調整できます。
まとめと今後の展望
EarlyTomは「どこで圧縮するか」という問いへの明確な答えを持つ研究です。これまで後段処理の改善に集中してきた動画VLMの効率化研究に対し、視覚エンコーダという上流での圧縮がより根本的な解決策になることを示しました。CVPR 2026採択済みであり、手法の有効性は国際会議でも認められています。
課題としては、10%という低い保持率では精度が約4%低下する点と、アテンションシンクの出方が動画の種類やエンコーダ構造によって異なる可能性が挙げられます。今後は、より多様なモデル(Qwen2-VLやInternVL系)への適用検証や、長時間動画・高解像度入力での挙動確認が研究の発展方向として考えられます。
