LiveEditとは？3段階蒸留で実現する12fps超のリアルタイムストリーミング動画編集

双方向DiTから単方向因果モデルへの3段階蒸留で推論を4ステップに圧縮し、処理時間を197msから7.89msに短縮
フレーム間で未編集背景のトークンを再利用するAR指向マスクキャッシュにより、冗長トークンの約70%を削減
ストリーミング動画編集専用ベンチマークで6つのベースラインを全指標で上回り、12.66 FPSのリアルタイム編集を実現

研究の背景

テキスト指示だけで動画の特定領域を編集できる技術は、ARデバイスやインタラクティブな映像制作ツールへの応用が広く期待されています。しかし既存の手法には大きな障壁があります。高品質な編集を実現する拡散モデルは、全フレームを双方向に参照して処理するため、推論に数秒単位の時間がかかります。リアルタイム処理には到底届きません。

一方、ストリーミング向けに設計された過去のモデルは、過去フレームのみを参照する因果的構造（Causal Architecture）で低レイテンシを実現しますが、未編集の背景を正確に保持するのが苦手です。編集対象ではない領域がフレームをまたいで変化してしまう問題が起きます。LiveEditは、この「品質」と「速度」の両立を目指して開発されました。ECCV 2026に採択されており、技術的な信頼性も外部評価で確認されています。

図1: 動画編集パラダイムの比較。双方向モデルは推論が遅く、既存ストリーミングモデルは未編集領域の保存精度が低い。LiveEditは因果的DiTとマスクキャッシュで両課題を解決する

3段階蒸留パイプライン

LiveEditの中核は、高品質な双方向拡散モデル（Bidirectional DiT）の能力を、リアルタイム動作可能な単方向モデル（Causal DiT）へ段階的に移す蒸留パイプラインです。3つのステージに分かれています。

第1段階（基盤チューニング）では、元動画フレームとノイズを付与した潜在表現をチャネル方向に結合し、双方向DiTをファインチューニングします。この段階で編集の基礎能力をモデルに覚えさせます。1フレームあたりの処理時間はこの時点で約197msです。

第2段階（教師強制）では、Chunk-wise Causal Attentionを導入します。モデルが将来のフレームを参照できないよう制限しながら、第1段階の双方向モデルの出力を教師信号として学習します。単方向モデルへの移行時に生じる注意分布のずれを、この段階で矯正するのが重要なポイントです。

第3段階（DMD蒸留）では、Distribution Matching Distillation（DMD）を適用し、推論ステップをわずか4回まで圧縮します。通常の拡散モデルは20〜50ステップを要しますが、第2段階の重みから直接初期化することで学習を安定させます。この段階で処理時間は約7.89msまで短縮されます。蒸留を用いた生成・編集モデルの高速化という観点では、DanceOPD：生成・編集を1モデルに統合するオンポリシー蒸留フレームワークも関連する手法として参考になります。

AR指向マスクキャッシュ

蒸留だけでは12 FPSには届きません。そこでLiveEditがもう一つの工夫として導入したのが「AR指向マスクキャッシュ」です。動画フレームには編集対象以外の背景領域が大量に存在します。これらの領域は前フレームとほぼ同じ内容であるため、毎フレーム同じ計算を繰り返すのは非効率です。

マスクキャッシュは、フレーム間のL2距離を計算して変化の少ない未編集領域を特定し、その領域の自己注意（Self-Attention）トークンを直前フレームから再利用します。フィードフォワードネットワーク（FFN）にはキャッシュを適用しません。時間的な冗長性が自己注意層に集中しているためです。この仕組みにより、冗長なトークン計算の約70%を削減します。

結果として1フレームあたりの処理時間は79msとなり、12.66 FPSのリアルタイム動画編集が実現します。なお、キャッシュをFFN層に適用した場合はテキスト整合性スコアが0.236まで急落することが実験で確認されており、自己注意層のみへの適用が性能維持の鍵です。

実験結果

LiveEditの評価には、著者らが新たに構築したストリーミング動画編集専用のベンチマークを使用しています。120本の動画ペアで構成され、テキスト整合性・背景一貫性・動作の滑らかさなど6つの指標で計測します。比較対象にはLucyEdit、InsV2V、VideoCoFなど6つのベースラインを用意しました。

定量評価では、テキスト整合性スコア0.270、背景一貫性スコア0.956、動作の滑らかさ0.992を達成し、全ベースラインを上回りました。ユーザースタディでは、背景保存の評価で参加者の75%がLiveEditを最高と評価しています。指示への忠実さと未編集領域の品質保持を同時に高いレベルで実現した点が、従来手法との大きな差です。

図5: ストリーミング動画編集の定性比較。既存手法が構造崩壊やテキスト指示への不一致を示す一方、LiveEditは編集対象を正確に変更しながら背景の視覚品質と時間的整合性を保持する

まとめと今後の展望

LiveEditは、拡散モデルの高い編集品質をリアルタイム処理と両立させた実用的なフレームワークです。3段階蒸留とAR指向マスクキャッシュの組み合わせという設計は理解しやすく、他のアーキテクチャへの応用も期待できます。専用ベンチマークの提案も含めて、ストリーミング動画編集という領域の研究基盤を整えた点でも意義があります。

一方で課題もあります。マスクキャッシュはFFN層には適用できないため、さらなる高速化には新たなアプローチが必要です。また、高解像度や複雑な編集シナリオでの性能維持は今後の検証課題といえます。ARデバイスやインタラクティブな映像制作ツールへの実用展開を見据えた、注目に値する研究成果です。