Qwen-Image-2.0とは？Qwen3-VLと拡散変換器で生成・編集を統合した画像基盤モデル

Qwen3-VLを条件エンコーダとして採用し、Multimodal Diffusion Transformerと組み合わせることで生成と編集を単一フレームワークに統合
最大1,000トークンの指示に対応し、スライド・ポスター・インフォグラフィック・コミックなどテキストリッチコンテンツを高精度生成
人手評価で前世代Qwen-Imageモデルを生成・編集の両面で大幅に上回り、多言語タイポグラフィも大きく改善

研究の背景と課題

画像生成モデルは近年著しく進化してきましたが、現場での実用には依然いくつかの壁があります。長い日本語や中国語テキストを正確に描画する能力の欠如、複数言語が混在するタイポグラフィへの対応不足、そして高解像度フォトリアリズムの達成難易度がその代表例です。

特にスライドやポスターのように文字情報が主役となるコンテンツでは、テキストの誤認識や文字配置のずれが品質を大きく損ないます。さらに、従来の多くのシステムでは「生成」と「編集」をそれぞれ別のモデルで担う構成が一般的で、ワークフローの複雑化と運用コストの増大を招いていました。

Alibaba Qwenチームが2026年5月に発表したQwen-Image-2.0は、こうした複数の課題を単一フレームワークで解決することを目指した画像生成基盤モデルです。長文テキストレンダリング、多言語タイポグラフィ、高解像度フォトリアリズム、ロバストな指示追従、効率的なデプロイという5つの課題を同時に取り組んでいます。

アーキテクチャ：2つの基盤技術の連携

Qwen-Image-2.0のコア設計は、2種類のモデルを連携させた構成にあります。条件エンコーダには大規模マルチモーダルモデルのQwen3-VLを採用し、テキスト指示や参照画像の意味を深く理解する役割を担わせます。そこで得た条件情報を受け取り、実際の画像生成・編集を実行するのがMultimodal Diffusion Transformer（マルチモーダル拡散変換器）です。

図1: Qwen-Image-2.0のアーキテクチャ概要。Qwen3-VLが条件エンコーダとして機能し、Multimodal Diffusion Transformerが生成・編集を実行する

条件とターゲットを結合してモデリングするアプローチにより、テキストの意味理解と高品質な画像生成能力が同時に実現されます。拡散変換器を大規模に安定して学習させる手法（MV-Split残差手法など）は昨今の活発な研究テーマであり、Qwen-Image-2.0もこうした知見の上に構築されています。

学習面では、大規模なデータキュレーションとカスタマイズされた多段階トレーニングパイプラインを組み合わせています。テキストリッチなコンテンツや多言語データを大量に整備し、段階的に能力を積み上げることで、複雑な指示への追従性を高めています。Qwen3-VLが持つマルチモーダル理解能力を条件付けに活かすことで、フレキシブルな生成・編集能力を損なうことなく、豊かな言語理解を画像生成に組み込んでいます。

主要機能：生成・編集・多言語対応

Qwen-Image-2.0には前世代から大きく進化した機能領域があります。

長文指示への対応：最大1,000トークンの指示を処理でき、詳細な仕様を含むコンテンツ生成が実現
テキストリッチコンテンツ生成：スライド、ポスター、インフォグラフィック、コミックなど文字情報が中心のコンテンツを高精度に生成
多言語タイポグラフィ：日本語、中国語、アラビア語など多様な言語テキストの文字形状と配置精度を大幅改善
高精細フォトリアリズム：テクスチャの精細さ、照明の一貫性、スタイルの多様性にわたる向上

図2: テキストから生成するモード（左）と既存画像を編集するモード（右）の処理フロー

これらの機能が単一のモデルで提供される点が、Qwen-Image-2.0の実用上の大きな利点です。スライド生成から写真の背景変更まで、用途に応じてモデルを切り替える手間なく対応できます。複雑なプロンプトへの追従性も強化されており、「青と白のカラースキームで日英バイリンガルのビジネスポスターを生成し、右下にQRコードの配置スペースを確保する」といった詳細な指示にも応えられるようになっています。

実験結果

論文では人手評価（ヒューマンエバリュエーション）による広範な検証が実施されました。評価の結果、Qwen-Image-2.0は生成タスク・編集タスクの両面において前世代のQwen-Imageモデルを大幅に上回ることが示されています。

特にテキストリッチなコンテンツ生成での改善が顕著です。従来モデルでは文字の誤認識や配置ずれが生じやすかった多言語テキストについて、文字形状の正確さと視覚的な完成度の双方でスコアが向上しました。フォトリアリスティックな生成においても、より豊かなディテール、現実的なテクスチャ、一貫した照明が実現され、多様なスタイルを横断した高品質な出力が確認されています。

本モデルはHuggingFace Daily Papersで公開初日に55票を集め2位にランクインするなど、研究コミュニティからも注目されています。なお、評価は主に人手評価によるものであり、公開ベンチマーク上での定量的な他モデル比較については今後の情報公開が待たれます。

まとめと今後の展望

Qwen-Image-2.0はQwen3-VLとMultimodal Diffusion Transformerを組み合わせることで、長文テキスト処理・多言語タイポグラフィ・フォトリアリズム・指示追従という複数の課題に同時に取り組んだ画像生成基盤モデルです。生成と編集を単一フレームワークに統合した設計は、デプロイ効率の観点からも実用上の利点があります。

スライドやマーケティング素材のような文字情報を多用するビジネスコンテンツの自動生成、多言語対応が求められるグローバル向けコンテンツ制作など、活用範囲は広いと考えられます。モデルの公開やAPIの整備状況によっては、実プロダクトへの組み込み事例も増えていくでしょう。テクニカルレポートとして発表された本研究が、今後より詳細な評価データとともに補完されることが期待されます。

Qwen-Image-2.0 Technical Report

Abstract page for arXiv paper 2605.10730: Qwen-Image-2.0 Technical Report

arxiv.org

Qwen3-VLを条件エンコーダとして採用し、Multimodal Diffusion Transformerと組み合わせることで生成と編集を単一フレームワークに統合
最大1,000トークンの指示に対応し、スライド・ポスター・インフォグラフィック・コミックなどテキストリッチコンテンツを高精度生成
人手評価で前世代Qwen-Imageモデルを生成・編集の両面で大幅に上回り、多言語タイポグラフィも大きく改善