Lanceとは？画像・動画の理解・生成・編集を単一モデルで統合するByteDanceの新手法

デュアルストリームMoEで理解・生成の能力経路を分離しながら共有コンテキストで協調学習し、3Bの活性化パラメータで7Bクラスのモデルを超える性能を実現
モダリティ認識型位置エンコーディング「MaPE」が異種の視覚トークン間の干渉を軽減し、VBenchで統合モデル最高スコア85.11を達成
画像・動画の生成から編集まで6タスクを単一モデルで処理し、GEdit-Benchでも統合モデル中トップの7.30を記録

研究の背景

画像・動画を扱うAIモデルは、近年「理解」「生成」「編集」それぞれの分野で目覚ましい発展を遂げてきました。しかし多くの場合、これらは独立したモデルとして設計されており、複数のタスクを実際のアプリケーションで組み合わせるには複数のモデルを並行して運用する必要がありました。

この状況を改善しようとする統合モデルの研究が増えている一方で、大きな技術的障壁があります。理解タスクには意味論的な情報（「何が写っているか」）が重要ですが、生成タスクには画素レベルの精細なパターンが求められます。この表現要件の違いが、単一モデルで両者を高品質に扱うことを難しくしてきました。

ByteDanceの研究チームが2026年5月に発表したLanceは、「分離された能力経路」と「統一コンテキスト学習」を組み合わせることで、この課題に正面から取り組んだフレームワークです。単純にモデルを大きくするのではなく、マルチタスク協調学習の設計を工夫することで実用的な性能向上を追求しています。

デュアルストリームMoEの仕組み

Lanceの中核を担うのが、デュアルストリーム混合専門家（Dual-Stream Mixture-of-Experts, MoE）アーキテクチャです。MoEとは、入力に応じて異なる「専門家」モジュールを使い分ける設計手法です。全パラメータを常に使うのではなく必要な専門家だけを活性化させるため、メモリ効率が高い点も特徴です。

Lanceでは「理解専門家」と「生成専門家」の2種類の経路を設けています。テキスト生成・動画分析などの理解タスクは理解専門家が、画像・動画の生成・編集は生成専門家が主に担当します。重要なのは、両者が共有されたマルチモーダルコンテキスト上で動作する点です。これにより、一方のタスクで得た知識が自然にもう一方に波及する「マルチタスク相乗効果」が生まれます。

図1: Lanceのアーキテクチャ全体像。理解・生成・編集の各タスク入力をMaPEで強化した統合コンテキストに変換し、デュアル専門家バックボーンが処理する。自己回帰予測用のLMヘッドと視覚潜在空間での速度予測用フローヘッドの2系統で出力する

出力は2系統のヘッドで生成されます。テキスト出力は言語モデリングヘッド（LMヘッド）が自己回帰的な次トークン予測で担当し、画像・動画の視覚出力はフローヘッドが拡散ベースの速度予測（velocity prediction）で担当します。この分業により、テキストと視覚それぞれに最適な生成方式を単一モデルの中で両立させています。

MaPEによる位置エンコーディングの刷新

もう一つの重要な技術革新がMaPE（Modality-Aware Positional Encoding、モダリティ認識型位置エンコーディング）です。位置エンコーディングとは、モデルがシーケンス内の各トークンの位置関係を把握するための仕組みで、Transformerアーキテクチャの基本要素です。

統合モデルでは、意味論的な情報を持つViTトークンと、画素の変化パターンを表すVAE潜在空間トークンが混在します。これらを区別せず同一の位置エンコーディングで処理すると、タスク間で信号の干渉が起き、性能が低下します。MaPEはモダリティの種類に応じた位置オフセットを時間次元に付与することで、視覚トークン間の機能的な境界を位置空間でも明確にします。これによりタスク間の整合性が高まり、理解と生成を同一シーケンス上で同時に扱う際の品質低下を抑えます。

6タスクを1モデルで処理

Lanceが対応するタスクは3カテゴリ・6種類に及びます。理解系（X2T）では画像の内容説明（I2T）と動画の内容説明（V2T）、生成系では任意入力からの画像生成（X2I）とテキスト・参照映像からの動画生成（X2V）、そして編集系では画像編集と動画編集です。

図2: テキストや参照画像を入力として画像を生成する「X2I」と、画像内容をテキストで説明する「I2T」の出力例

図3: 参照映像を入力とした動画生成（X2V）と、動画の内容をテキストで説明する動画理解（V2T）の出力例

動画生成の分野では、LongLive-2.0のような特定能力に特化したモデルが速度や長時間生成を追求する研究が進んでいます。Lanceはこれとは対照的に、理解・生成・編集を統一的に扱う「ゼネラリスト」としての方向性を追求しており、単一のモデルで幅広いタスクに対応できる実用性を示しています。

実験結果

Lanceは活性化パラメータ3Bという比較的小さな規模でありながら、7Bクラスの統合モデルを複数のベンチマークで上回りました。画像生成品質を測るGenEvalでは0.90を記録し、BAGEL（7B）の0.88やShow-o2（7B）を超えています。テキスト指示と画像の整合性を総合的に評価するDPG-Benchでは84.67を達成しました。

動画生成品質を測るVBenchでは85.11を達成し、統合モデルの中で最高スコアとなりました。Show-o2の81.34を大きく上回る結果です。動画・画像の理解能力を測るMVBenchでは62.0を記録し、Show-o2の55.7を超えています。視覚的品質の面では、20Bクラスのモデルと同等の水準に迫ると論文は報告しています。

図4: テキストから画像生成（T2I）の定性比較。赤字はLanceが正しく反映できたが、一部のベースラインが正しく反映できなかった指示内容を示している

編集タスクではGEdit-Benchにて7.30を達成し、統合モデルの中でトップスコアを記録しました。背景変更・素材変更・対象の削除や置換のカテゴリで特に高い評価を得ています。一方で、テキスト文字の修正（text editing）については精度が課題として残っており、今後の改善点として論文でも明示されています。

図5: 画像・動画編集の定性比較。Lanceはテクスチャと構造を保持しながら精緻な画像編集を行い、時間的に一貫性のある動画編集も実現している

スケーリングが示した相乗効果

論文ではトレーニングトークン数を0.5兆（0.5T）から1.5兆（1.5T）まで段階的に増やした際の性能変化も検証されています。DPG-BenchとVBenchともにトークン数に応じて着実に改善し、マルチタスク協調学習による相乗効果が数値として確認されました。

図6: トレーニングトークン数の増加に伴う画像・動画生成性能の推移。DPG-BenchとVBenchともにスケールとともに向上し、マルチタスク協調学習の有効性を示している

0.5Tトークンの段階ではテキスト指示の意味理解はできているものの、細部の再現に粗さが残ります。1.5Tトークンになると複数物体の動力学的な表現や構造の忠実な再現が大幅に向上することが、定性的な比較でも確認されています。このスケーリング実験は、統合学習によるタスク間の知識転移が継続的に効いていることを示唆するものです。