- SigLIP-VQとMoEバックボーンでテキスト・画像を統一の離散トークンとして扱い、理解・生成・編集を単一モデルで実現
- MMBench・VQAv2等の理解ベンチマークで専門VLMと同等水準を達成しながら、GenEval・DPG-Benchでも高品質な画像生成を実現
- SPRINTによる推論加速と8ステップ蒸留デコーダで実用的な速度を確保し、モデルとコードをApache 2.0で公開
研究の背景と課題
マルチモーダルAIの研究では長らく、「理解(Understanding)」と「生成(Generation)」のモデルが別々に開発されてきました。視覚質問応答や画像キャプション生成を得意とするVLM(Vision Language Model、視覚言語モデル)の研究は急速に進んでおり、PersonaVLMのように長期記憶と強化学習を組み合わせた専門化も深まっています。一方でテキストから高品質な画像を生成する拡散モデルも独自の進化を遂げており、両者はアーキテクチャの設計思想が根本的に異なります。
この二者を統合しようとする試みはすでに複数存在します。Unified-IOは連続的な特徴量を用いて理解と生成を橋渡ししますが、モダリティ間の表現統一が難しい面があります。Anoleは離散トークンを用いながらも自己回帰(Autoregressive、前のトークンから順番に次を予測する方式)に依存しており、並列処理による効率化に制約があります。単一モデルで専門VLMに匹敵する理解性能と高品質な画像生成・編集能力を両立させることは、依然として難しい課題でした。
LLaDA2.0-Uniは、この課題に対して離散拡散言語モデル(dLLM、Discrete Diffusion Language Model)という独自のアプローチで挑んでいます。テキストも画像も離散トークンとして扱い、マスクされたトークンを並列に予測する拡散過程で推論を行う点が、自己回帰型モデルと決定的に異なります。
3層アーキテクチャの設計

LLaDA2.0-Uniのアーキテクチャは、3つのコンポーネントが有機的に連携する構造です。
第1層:SigLIP-VQによる離散セマンティックトークナイザー。SigLIP(Google開発の視覚エンコーダ)にVQ(Vector Quantization、ベクトル量子化)を組み合わせたこのモジュールが、連続的なピクセル値を意味のある離散トークン列に変換します。従来の連続的な特徴量ではなく、テキストと同じ離散トークンを使うことで、バックボーンがテキストと画像を統一的な操作対象として扱えるようになっています。
第2層:MoEベースのdLLMバックボーン。LLaDA 2.0をベースとするこの層は、Mixture-of-Experts(MoE、複数の専門家ネットワークを選択的に活用する手法)によってモデル容量を効率よく拡張できます。マスクトークン予測のパラダイムにより、テキストと画像のトークンをブロック単位でマスクして並列に復元する拡散過程が可能です。推論時のプレフィックスKVキャッシュ共有も、この並列処理の特性を活かした設計でしょう。
第3層:拡散デコーダ。バックボーンから出力された離散トークン列を高品質な画像に変換するモジュールです。標準の50ステップODE推論のほか、蒸留学習によって8ステップでほぼ同等の品質を実現する「decoder-turbo」モードも用意されています。これにより、標準比で約10倍の高速化が達成されているとのことです。
主な機能と推論の最適化
LLaDA2.0-Uniは、テキストから画像を生成する基本機能に加え、「Thinking Mode(思考モード)」をサポートしています。テキストプロンプトに対して最大4096トークンの思考過程を内部で生成してから画像を出力する仕組みで、複雑な構図や詳細な描写が必要な場面での品質向上が期待されます。
画像編集では、単一参照画像だけでなく複数の参照画像を使った編集が可能です。「背景を海辺に変えて」「水彩画風に変換して」といったテキスト指示に従いながら、元画像の細部を保持する精度の高い変換が実現されています。インターリーブ生成(テキストと画像を交互に含む複合出力)を同一モデルで扱える点も、特徴的な能力と言えます。
推論効率の面では、SPRINTと呼ぶ独自の加速手法が組み込まれています。プレフィックスKVキャッシュの再利用、信頼度に基づくアダプティブアンマスキング、閾値ベースのバッチ受け入れという3つの最適化を組み合わせることで、生成ステップ数を大幅に削減できます。image_keep_ratioやtext_keep_ratioといったパラメーターでモダリティごとのキャッシュ削減率を細かく調整できる点も、実運用を意識した設計です。
実験結果と性能評価

評価は、マルチモーダル理解と画像生成の両面から行われています。理解ベンチマークとしてはMMBench(視覚的推論と質問応答の総合評価)やVQAv2(画像に関する自然言語質問への回答精度)などが用いられ、画像生成の品質はGenEval(テキスト指示への忠実度と要素一貫性)やDPG-Bench(詳細な説明への対応能力)で測定されています。
LLaDA2.0-Uniは、理解タスクにおいて専門VLMと同等水準のスコアを達成したと報告されています。従来の統合モデルでは理解性能が専門モデルを大きく下回るケースが多く、離散拡散アプローチが理解・生成の両立に有効であることが示唆される結果です。Unified-IOやAnoleといった先行する統合モデルとの比較でも、理解と生成の双方でバランスの取れた成果が示されているとのことです。
画像生成においても、GenEvalおよびDPG-Benchで強力な結果が得られています。とくに注目すべき点は、インターリーブ生成での推論能力です。テキストと画像を混在させた複合的な出力を扱えることで、次世代の統合基盤モデルに求められる要件を着実に満たしつつある点が評価されています。
一方で、報告されている能力はモデルサイズやデータ規模によって大きく左右される可能性があります。また生成品質には主観的な評価指標も多く、実際のユースケースでの継続的な検証が必要な段階でもあります。
まとめと今後の展望
LLaDA2.0-Uniは、離散拡散LLMを核に据えた統合マルチモーダルフレームワークです。SigLIP-VQ・MoEバックボーン・拡散デコーダという3層構造により、自己回帰型モデルとは異なる設計思想でテキスト理解・画像生成・画像編集を統合しています。コードとモデルはApache 2.0ライセンスでGitHubおよびHugging Faceに公開されており、再現実験や応用研究をすぐに開始できる状態です。
今後はより大規模なモデルへのスケールアップ、動画理解・生成への拡張、SGLangを用いた高スループットサービングへの対応が検討されています。離散拡散という設計が次世代の統合基盤モデルの有力な選択肢となるか、今後の研究展開が注目されます。
