LoomVideoとは？MLLMバックボーンで動画生成・編集を統合し5.41倍高速化する新手法

MLLMバックボーンとDeepstack Injectionで拡散Transformerと連携し、動画生成・編集を5Bパラメータの単一モデルに統合
Scale-and-Add条件付けによりトークン連結のオーバーヘッドを完全排除し、類似性能帯モデル比5.41倍以上の推論高速化を達成
ECファッション動画など複雑な非剛体変形編集でSOTA性能を記録し、統合フレームワークとしての実用性を実証

研究の背景

動画を生成するモデルと動画を編集するモデルは、従来それぞれ独立して設計されてきました。生成モデルはテキストや画像から新たな動画を合成することに特化し、編集モデルは既存の動画を指示に従って変更することを担ってきた形です。この分離は設計をシンプルに保つ一方で、同一のユースケースに対して複数のモデルを維持・運用するコストや、タスク間でのアーキテクチャ上の非効率さをもたらしてきました。

また、既存の動画生成・編集モデルの多くはテキスト理解にCLIPやT5などの専用テキストエンコーダを利用してきました。これらは強力である反面、複雑な文脈の把握や画像・動画といった視覚情報との同時処理には限界がありました。

LoomVideoの提案手法

北京大学らの研究チームが発表したLoomVideoは、5Bパラメータの統合フレームワークです。動画生成と動画編集を単一のモデルで扱うために、3つの核心的な技術革新を組み合わせています。

まず、従来のテキストエンコーダの代わりにMLLM（大規模マルチモーダル言語モデル）をバックボーンとして採用しました。MLLMはテキストだけでなく画像や動画といった視覚情報もまとめて処理できるため、多様な入力形式を自然に扱えます。ただし、MLLMと拡散Transformer（DiT）の間にはアーキテクチャの差異があり、単純に接続するだけでは両者をうまく連携させられません。

この問題を解決するのがDeepstack Injectionです。MLLMの複数の層から得られた中間的な特徴量を段階的にDiTの対応する層へ注入することで、両者のアーキテクチャを整合させます。これにより、MLLMが持つ豊かな意味理解をDiTによる動画生成処理に活かせるようになりました。

図1: LoomVideoのアーキテクチャ概要。MLLMバックボーンからDeepstack InjectionでDiTへ特徴を注入し、Scale-and-Addで編集条件付けを行う

Scale-and-Addによる高速化

動画編集において、元の動画情報をどのようにモデルへ渡すかは重要な設計上の選択です。従来のアプローチでは、元動画のトークンと生成対象のトークンを連結してDiTに入力する方式が主流でした。しかしこの方式は入力トークン数を大幅に増やし、Attention機構（入力の重要な部分に注目する仕組み）の計算コストが入力長の二乗に比例して増加するため、推論速度が著しく低下します。

LoomVideoはこの問題に対してScale-and-Add条件付けという新しいアプローチを採用しました。元動画の潜在表現（ノイズのないlatent）に適切なスケール係数をかけて、ノイズが加わった生成ターゲットの潜在表現に直接加算するというシンプルな設計です。トークン連結を一切行わないためシーケンス長が増加せず、計算量を大幅に削減できます。この工夫により、類似の性能を持つモデルと比較して5.41倍以上の推論高速化を達成しています。

さらに、複数の参照画像を扱う際の位置エンコーディングにはNegative Temporal RoPEと呼ばれる手法を採用し、時系列情報が混乱しないよう工夫されています。AAD-1のような動画生成の1ステップ化とは異なるアプローチで、生成・編集の両タスクを汎用的に扱える統合フレームワークとしての実用性を追求した設計といえます。

実験結果

複数のベンチマークにおいて、LoomVideoは同等規模の競合モデルと互角以上の性能を示しました。特にECファッション動画の編集タスクでは最先端の性能を達成しています。ファッション動画における人物の動きや衣服の変形は非剛体の複雑な動きを伴いますが、MLLMの豊かな視覚理解力を活かすことでこうした難度の高い編集を高精度に行えることを示しました。

推論速度の面では、5.41倍以上の高速化は実運用において大きな意味を持ちます。動画生成・編集は計算コストが高く、リアルタイムに近い応答が求められる場面では速度がボトルネックになりがちです。Scale-and-Addによるトークン連結排除が、この実用上の課題を直接解決しています。

まとめと今後の展望

LoomVideoは、動画生成と動画編集を単一のMLLMベースフレームワークで統合するという設計方針と、それを実現するDeepstack InjectionおよびScale-and-Add条件付けという技術的工夫が核となった研究です。5Bパラメータという比較的コンパクトな規模でありながら、競合モデルに対して5倍以上の推論速度と高い編集品質を両立している点は、実応用への展開を見据えた成果といえます。

一方で、非常に長い動画への対応や、複雑な指示を含む編集シナリオでの性能については今後さらなる検証が待たれます。MLLMをバックボーンとする統合型動画モデルという方向性は、動画生成・編集研究の今後の設計指針に影響を与えていく可能性があります。