Future-L1とは？視覚潜在空間で「想像」してから予測するVLM動画推論の新手法

言語トークンと視覚潜在スパンを交互に生成し、テキスト変換なしで動き・幾何情報を保持したまま動画イベントを予測する新手法
Future-L1-50Kデータセット構築とLA-DAPOによる強化学習で、FutureBenchにおいてQwen3-VL-8Bを61.0→85.4（+24.4点）に大幅改善
GitHubでコードが公開されており、任意のVLMに適用可能な汎用的な推論フレームワークとして活用できる

動画予測における課題

「動画の次のシーンに何が起こるか」を予測する動画イベント予測（Video Event Prediction, VEP）は、VLM（視覚言語モデル）の重要な応用分野の1つです。しかし既存手法には2つの構造的な弱点がありました。1つ目はテキストベースの推論（Text-CoT）における情報損失の問題です。この手法は人間にとって解釈しやすい反面、動き・幾何情報が言語の粒度で失われます。2つ目はピクセル空間で将来フレームを直接生成するアプローチで、視覚情報は保持できるものの計算コストが非常に高くなります。

図1: テキストCoT・ピクセル空間シミュレーション・Future-L1の推論方式の比較。Future-L1はフル解像度フレームを生成せず、コンパクトな潜在スパンで将来の視覚的意味を保持する

この2つのアプローチの中間点となる解が、Future-L1です。コンパクトな潜在表現を使うことで、フレーム生成のコストなしに視覚情報を推論チェーンへ取り込みます。

視覚潜在スパンによる「想像」

Future-L1の核となるアイデアは、自己回帰デコーディングの途中でテキストトークンと視覚潜在スパン（latent visual span）を交互に生成することです。視覚潜在スパンとは将来のフレームを圧縮した連続ベクトル表現であり、フル解像度の画像を生成するコストなしに動き・空間情報を保持できます。

モデルはまず動画の観測部分を手掛かりに「これから何が起きるか」を潜在空間で「想像」し、その視覚的手がかりをもとに最終的なテキスト予測を行います。言葉で表現しにくい動きのパターンや空間的な変化を潜在表現の形で推論チェーンに組み込む点が、従来のText-CoTとの本質的な違いです。

図2: Future-L1のシステム概要。左：視覚ゲインによるデータ選択（Future-L1-50K構築）、中央：SFTによるテキスト・潜在軌跡の学習、右：LA-DAPOによる強化学習の最適化

データセットと強化学習

手法の実現には2つの新しいコンポーネントが必要でした。1つ目はトレーニングデータセット「Future-L1-50K」です。視覚情報を加えることで予測精度が大きく向上する動画を選定するために、視覚ゲイン（pv − pt）という指標を導入しています。これは「テキストのみの予測精度」と「視覚情報も加えた予測精度」の差であり、この値が高いサンプルを優先的に収集することで、視覚的想像が実際に有効なシナリオに絞り込んでいます。

2つ目は強化学習の目的関数「LA-DAPO（Latent-Aware DAPO）」です。2種類の報酬を組み合わせており、「結果対比報酬」は正解と不正解の予測結果を対比して正確な予測を促します。「時間的多様性報酬」は潜在スパンが動画全体の時間的な変化を幅広くカバーするよう誘導する役割を担います。この組み合わせにより、モデルは適切なタイミングで視覚的想像を活用する能力を習得できます。

実験結果

FutureBenchにおいて、Future-L1を適用したQwen3-VL-8Bのスコアは61.0から85.4（+24.4点）へと大幅に向上し、既存のVideo-CoEを10.4ポイント上回りました。また、TwiFF-Benchでも平均スコアが2.44から3.04に改善しています。

MLLMバックボーンで動画生成と編集を統合するLoomVideoが生成タスクに焦点を当てているのと対照的に、Future-L1は動画の理解・予測に特化し、潜在表現を推論の補助として活用する独自の位置づけを持っています。

強化学習の報酬推移を見ると、学習が進むにつれてモデルが推論深度に応じて潜在スパンの使用数を動的に調整するようになることも確認されました。浅い推論では少ないスパンで済み、深い推論ほど多くの視覚的想像を活用するという振る舞いが自然に身につく点は、興味深い挙動と言えるでしょう。

まとめと今後の展望

Future-L1は「推論をすべてテキストに落とし込む」というVLMの従来の制約を超え、視覚潜在空間を推論チェーンに組み込む新しいパラダイムを提示しています。LA-DAPOの報酬設計は汎用性が高く、動画以外のマルチモーダルな推論タスクへの応用も見込まれます。

一方で限界も認識されています。論文が示す失敗事例では、野球と犬が登場するシーンで「カーペット→冷蔵庫→ダグアウト」という細粒度なイベント遷移を予測できていません。潜在表現が保持できる視覚的細部の粒度を高めることが今後の主要な改善方向となり、コードはGitHubで公開済みで研究コミュニティによる追加検証が期待されています。