- 16億サンプルの訓練コーパスから厳選した1億件超の高品質データで、ビューティフィケーション・低レベル画質向上を含む15カテゴリの編集能力を習得
- 独自ベンチマーク「REDEdit-Bench」全15カテゴリにわたって、オープンソース・商用システムの双方と比較して競争力のある、あるいは上回る性能を実証
- Asymmetric Gradient OptimizationやConsistency Lossなど独自技術により、テキスト編集・人物同一性保持といった難度の高いタスクを安定して処理
研究の背景
テキスト命令で画像を自由に編集する「命令駆動型画像編集」は、生成AIの実用化において重要な分野です。しかし、現実の編集ニーズは「オブジェクトの追加・削除」から「スタイル変換」「テキスト書き換え」「美容補正」「画質向上」まで多岐にわたり、これらを一つのモデルで高精度に扱うことは依然として難しい課題でした。
さらに既存の評価基準も課題を抱えていました。ビューティフィケーション(肌補正や顔色調整など)や低レベル画質向上(ノイズ除去や鮮明化など)といった重要なカテゴリをカバーする包括的なベンチマークが存在せず、モデル間の公正な比較が困難な状況にありました。
提案手法
Super Intelligence Teamが開発した「FireRed-Image-Edit 1.0」は、拡散トランスフォーマー(Diffusion Transformer)をベースとし、データ構築・訓練設計・評価の3つの観点から体系的な最適化を行っています。
訓練データについては、9億件のテキスト→画像ペアと7億件の画像編集ペアからなる計16億サンプルの大規模コーパスを収集。厳格なクリーニング・層化サンプリング・自動ラベリング・2段階フィルタリングを経て、生成と編集のバランスが保たれた1億件超の高品質サンプルを厳選しています。
訓練パイプラインは事前学習・教師あり微調整・強化学習の3段階で構成されます。データ効率の改善にはMulti-Condition Aware Bucket Sampler(さまざまな解像度の画像を効率よくバッチ処理する仕組み)と、Stochastic Instruction Alignment(動的なプロンプト再インデックスにより指示文への過適合を防ぐ手法)を導入しています。
最適化の安定化と制御性の向上には3つの独自技術を採用しました。Asymmetric Gradient Optimization for DPOは、DPO(Direct Preference Optimization、人間の好みに合わせた直接的な最適化手法)における勾配の非対称処理で学習を安定させます。DiffusionNFTはレイアウト認識型のOCR報酬を組み込み、画像内のテキスト編集精度を向上。Consistency Lossは微分可能な損失関数として機能し、人物の顔や体型といったアイデンティティを編集後も正確に保持します。
REDEdit-Benchと実験結果
本研究では評価の課題を解決するため、REDEdit-Benchという独自ベンチマークも新たに構築しました。オブジェクト追加・削除・置換・スタイル変換・テキスト編集などの従来カテゴリに加え、ビューティフィケーションと低レベル画質向上という新カテゴリを含む計15のカテゴリをカバーしており、実際の用途に即した包括的な評価を可能にしています。
REDEdit-Benchの全15カテゴリにわたる実験で、FireRed-Image-Edit 1.0はオープンソース・商用の双方を含む比較システムと同等以上の性能を達成しています。同ベンチマークにおいて、従来のシステムが苦手としてきたビューティフィケーションや画質向上カテゴリでも高い汎用性を示し、新カテゴリを含む包括的な評価で強い競争力を発揮しました。
公開ベンチマークであるImgEditとGEditにおいても同様に、既存のオープンソースモデルや商用サービスに対して競争力のある結果を記録しています。なお本稿執筆時点(2026年2月)では詳細スコアの完全な開示は論文PDFのみとなっていますが、DeepGen 1.0のような軽量統合モデルと比べても大規模データと多段階学習を活かした総合編集力の高さが特徴です。
まとめと今後の展望
FireRed-Image-Edit 1.0は、16億サンプルに及ぶ大規模な訓練データと独自の技術革新を組み合わせることで、命令駆動型画像編集の性能を大幅に引き上げた研究です。特に、ビューティフィケーションや低レベル画質向上といった実用的なカテゴリを評価に組み込んだREDEdit-Benchの公開は、今後の研究の標準的な評価軸になる可能性があります。
一方で、16億サンプルという訓練規模は中小規模の研究グループが再現するには困難であり、データ収集コストの高さが課題として残ります。コード・モデル・ベンチマークスイートはすべて公開予定であるため、これらを活用したさらなる研究の進展が期待されます。

