- デュアルストリームMoEで理解・生成の能力経路を分離しながら共有コンテキストで協調学習し、3Bの活性化パラメータで7Bクラスのモデルを超える性能を実現
- モダリティ認識型位置エンコーディング「MaPE」が異種の視覚トークン間の干渉を軽減し、VBenchで統合モデル最高スコア85.11を達成
- 画像・動画の生成から編集まで6タスクを単一モデルで処理し、GEdit-Benchでも統合モデル中トップの7.30を記録
研究の背景
画像・動画を扱うAIモデルは、近年「理解」「生成」「編集」それぞれの分野で目覚ましい発展を遂げてきました。しかし多くの場合、これらは独立したモデルとして設計されており、複数のタスクを実際のアプリケーションで組み合わせるには複数のモデルを並行して運用する必要がありました。
この状況を改善しようとする統合モデルの研究が増えている一方で、大きな技術的障壁があります。理解タスクには意味論的な情報(「何が写っているか」)が重要ですが、生成タスクには画素レベルの精細なパターンが求められます。この表現要件の違いが、単一モデルで両者を高品質に扱うことを難しくしてきました。
ByteDanceの研究チームが2026年5月に発表したLanceは、「分離された能力経路」と「統一コンテキスト学習」を組み合わせることで、この課題に正面から取り組んだフレームワークです。単純にモデルを大きくするのではなく、マルチタスク協調学習の設計を工夫することで実用的な性能向上を追求しています。
デュアルストリームMoEの仕組み
Lanceの中核を担うのが、デュアルストリーム混合専門家(Dual-Stream Mixture-of-Experts, MoE)アーキテクチャです。MoEとは、入力に応じて異なる「専門家」モジュールを使い分ける設計手法です。全パラメータを常に使うのではなく必要な専門家だけを活性化させるため、メモリ効率が高い点も特徴です。
Lanceでは「理解専門家」と「生成専門家」の2種類の経路を設けています。テキスト生成・動画分析などの理解タスクは理解専門家が、画像・動画の生成・編集は生成専門家が主に担当します。重要なのは、両者が共有されたマルチモーダルコンテキスト上で動作する点です。これにより、一方のタスクで得た知識が自然にもう一方に波及する「マルチタスク相乗効果」が生まれます。

出力は2系統のヘッドで生成されます。テキスト出力は言語モデリングヘッド(LMヘッド)が自己回帰的な次トークン予測で担当し、画像・動画の視覚出力はフローヘッドが拡散ベースの速度予測(velocity prediction)で担当します。この分業により、テキストと視覚それぞれに最適な生成方式を単一モデルの中で両立させています。
MaPEによる位置エンコーディングの刷新
もう一つの重要な技術革新がMaPE(Modality-Aware Positional Encoding、モダリティ認識型位置エンコーディング)です。位置エンコーディングとは、モデルがシーケンス内の各トークンの位置関係を把握するための仕組みで、Transformerアーキテクチャの基本要素です。
統合モデルでは、意味論的な情報を持つViTトークンと、画素の変化パターンを表すVAE潜在空間トークンが混在します。これらを区別せず同一の位置エンコーディングで処理すると、タスク間で信号の干渉が起き、性能が低下します。MaPEはモダリティの種類に応じた位置オフセットを時間次元に付与することで、視覚トークン間の機能的な境界を位置空間でも明確にします。これによりタスク間の整合性が高まり、理解と生成を同一シーケンス上で同時に扱う際の品質低下を抑えます。
6タスクを1モデルで処理
Lanceが対応するタスクは3カテゴリ・6種類に及びます。理解系(X2T)では画像の内容説明(I2T)と動画の内容説明(V2T)、生成系では任意入力からの画像生成(X2I)とテキスト・参照映像からの動画生成(X2V)、そして編集系では画像編集と動画編集です。


動画生成の分野では、LongLive-2.0のような特定能力に特化したモデルが速度や長時間生成を追求する研究が進んでいます。Lanceはこれとは対照的に、理解・生成・編集を統一的に扱う「ゼネラリスト」としての方向性を追求しており、単一のモデルで幅広いタスクに対応できる実用性を示しています。
実験結果
Lanceは活性化パラメータ3Bという比較的小さな規模でありながら、7Bクラスの統合モデルを複数のベンチマークで上回りました。画像生成品質を測るGenEvalでは0.90を記録し、BAGEL(7B)の0.88やShow-o2(7B)を超えています。テキスト指示と画像の整合性を総合的に評価するDPG-Benchでは84.67を達成しました。
動画生成品質を測るVBenchでは85.11を達成し、統合モデルの中で最高スコアとなりました。Show-o2の81.34を大きく上回る結果です。動画・画像の理解能力を測るMVBenchでは62.0を記録し、Show-o2の55.7を超えています。視覚的品質の面では、20Bクラスのモデルと同等の水準に迫ると論文は報告しています。

編集タスクではGEdit-Benchにて7.30を達成し、統合モデルの中でトップスコアを記録しました。背景変更・素材変更・対象の削除や置換のカテゴリで特に高い評価を得ています。一方で、テキスト文字の修正(text editing)については精度が課題として残っており、今後の改善点として論文でも明示されています。

スケーリングが示した相乗効果
論文ではトレーニングトークン数を0.5兆(0.5T)から1.5兆(1.5T)まで段階的に増やした際の性能変化も検証されています。DPG-BenchとVBenchともにトークン数に応じて着実に改善し、マルチタスク協調学習による相乗効果が数値として確認されました。

0.5Tトークンの段階ではテキスト指示の意味理解はできているものの、細部の再現に粗さが残ります。1.5Tトークンになると複数物体の動力学的な表現や構造の忠実な再現が大幅に向上することが、定性的な比較でも確認されています。このスケーリング実験は、統合学習によるタスク間の知識転移が継続的に効いていることを示唆するものです。
まとめ
Lanceは、デュアルストリームMoEとMaPEという2つの設計上の工夫により、理解・生成・編集という性質の異なるタスクを単一モデルで高品質に処理することを実現しました。パラメータ効率にも優れており、3Bの活性化パラメータで7Bクラスのモデルに匹敵する性能を複数ベンチマークで示しています。
コードとモデルはGitHubで公開されており、再現実験や応用研究への活用がしやすい状況です。テキスト文字編集の精度など残課題はあるものの、「能力経路の分離と協調」という設計思想は、今後の統合マルチモーダルモデル研究における重要な参照点になるでしょう。
