MRTとは？マスク領域Transformerで3タスクを統合した20B画像生成・編集モデル

テキストから層・画像から層・層から層の3タスクを選択的トークンマスキングで統一した20Bパラメータ拡散Transformerモデル
Qwen-Image-Layeredと比較して推論速度最大108倍、GPUメモリ消費を最大90%削減する高効率設計を実現
1000万件超の多言語デザインサンプルで訓練し、キャンバス境界を超えるオーバーフロー層の生成にも対応

研究の背景

グラフィックデザインの制作では、複数の透明レイヤーを重ねて1枚の画像を構成するワークフローが標準的です。テキスト、背景、装飾要素などを個別のレイヤーとして管理することで、後から特定の要素だけを差し替えたり、レイアウトを調整したりする柔軟な編集が可能になります。

しかし、従来の画像生成AIは最終的な合成画像を1枚出力するだけで、レイヤー構造を保持した生成は難しい状況でした。既存のレイヤー生成手法は処理速度やメモリ効率に課題を抱えており、実際のデザイン現場での利用には壁がありました。デザイン素材の多くはキャンバスの境界をはみ出すオーバーフロー層を含むにもかかわらず、これを正しく扱えるモデルは存在しなかった点も課題の1つです。

MRTが統合する3つのタスク

本論文が提案するMasked Region Transformer（MRT）は、レイヤー画像の生成と編集を統一的なフレームワークで扱う200億パラメータの拡散Transformerモデルです。選択的トークンマスキングという仕組みを通じ、3種類のタスクを1つのモデルで処理します。

1つ目は「Text-to-Layers（テキストから層）」で、テキストの説明文から複数の透明レイヤーと合成キャンバスを直接生成します。2つ目は「Image-to-Layers（画像から層）」で、既存のラスター画像を編集可能な複数の透明レイヤーに分解します。3つ目は「Layers-to-Layers（層から層）」で、既存レイヤーへの新要素追加や、参照画像のスタイルをデザイン全体に合わせて変換する編集機能です。

図3: MRTフレームワークの概要。選択的トークンマスキングにより、3タスクを共通の拡散Transformerで統合する仕組み

この統一設計の核となるのが選択的トークンマスキングの考え方です。各タスクに応じて、どのトークン（画像の部分的な表現）にノイズを加え、どのトークンを固定するかを切り替えることで、全く異なる処理を同一のアーキテクチャで実現しています。DARなど近年の拡散Transformerの改善研究と同様に、Transformerベースの設計にタスク固有の工夫を重ねています。

オーバーフロー層への対応

従来手法が見落としていた重要な問題として、オーバーフロー層の処理があります。調査によると、デザイン素材の60%以上はテキストや装飾要素がキャンバス（背景領域）の境界をはみ出した形で存在しています。この境界外の部分を切り捨てると、そのレイヤーを別の場所で再利用した際に表示が崩れてしまいます。

MRTはキャンバス全体を覆う完全サイズのRGBAレイヤーを生成することで、境界外のピクセルを保持します。これにより各レイヤーが独立した素材として再利用可能な状態を維持できます。

図2: オーバーフロー層の比較。従来手法（上）は境界内で切り詰めるが、MRT（下）は境界外のピクセルを含む完全なレイヤーを生成する

大規模データセットと多言語対応

MRTは1000万件を超える多言語デザインサンプルで訓練されています。英語だけでなく中国語など複数の言語のテキストレイヤーを含むデータセットを使うことで、多言語タイポグラフィ（文字組みデザイン）の生成にも対応しています。データセットにはレイヤー数や縦横比の多様な分布が含まれており、1枚あたり最大50枚以上のレイヤーを持つ複雑な構成も学習対象です。

推論効率と定量的な評価

MRTの大きな特徴の1つが推論効率の高さです。同様のタスクを扱う既存モデル「Qwen-Image-Layered」との比較では、レイヤー数が約20枚の状況で最大108倍の速度向上を達成しています。MRTが複数レイヤーをほぼ並行して一括処理するのに対し、Qwen-Image-Layeredはレイヤー数に比例して処理時間が伸びる設計になっているためです。

GPUメモリ消費量でも最大90%の削減を実現しており、レイヤー数が多いほどこの差は広がります。また、拡散蒸留（diffusion distillation）技術により8ステップ以下でのリアルタイムに近い生成も可能で、元の生成品質を維持したまま最大6倍の速度向上が確認されています。

図18: MRTとQwen-Image-Layeredの推論効率比較。レイヤー数が増えるほど差が拡大し、20層前後で最大108倍の速度差が生じる

ユーザー調査でも優位性が示されています。Text-to-Layersでは従来の最先端手法「ART」に対して要素配置、美的品質、タイポグラフィ、総合評価の全指標でMRTが上回りました。Image-to-LayersではLayerD、商用サービスのLovart・RoboNeoと比較し、レイヤー品質、元画像への忠実さ、分解の適切さの3軸すべてで優位性が確認されています。

限界と今後の課題

論文内ではいくつかの失敗事例も報告されています。透明領域がVAE（画像の圧縮・復元モジュール）で灰色として誤解釈される「グレー背景アーティファクト」、非常に小さいテキストの字形崩れ、Layers-to-Layersでの参照画像の同一性保持の難しさが挙げられています。

訓練データがポスターやグラフィックデザイン中心のため、自然写真への適用では影などの物理的効果の扱いに課題も残ります。被写体が重なり合う場面での隠れた部分の補完精度向上は、今後に委ねられた課題です。

まとめ

MRTは、デザイン向け画像生成・編集の3タスクを20Bパラメータの単一モデルで統合した実用性の高いフレームワークです。推論速度とメモリ効率の大幅な改善、オーバーフロー層の適切な処理、多言語対応と、実際のデザイン現場での活用を強く意識した設計になっています。レイヤー構造を保ったまま画像を生成・編集できる技術は、グラフィックデザイン制作の自動化に向けた実質的な前進といえます。