- 50億パラメータの軽量モデルで、800億パラメータのHunyuanImageを28%上回る画像生成性能を達成
- 画像生成と編集を単一モデルで統合し、独自のStacked Channel Bridging(SCB)で効率的な特徴融合を実現
- 学習コード・モデル重み・データセットをすべてオープンソースで公開予定
研究の背景
近年、テキストから画像を生成するAIモデルは急速に発展してきました。しかし、多くのモデルは「画像を新しく作る」タスクと「既存の画像を編集する」タスクを別々に扱っており、それぞれに専用のモデルが必要でした。さらに、高品質な出力を得るためには数百億パラメータ規模の巨大なモデルが求められることが多く、計算資源の面で大きな課題がありました。
Shanghai Innovation Instituteの研究チームは、この2つの課題に同時に取り組みました。画像生成と画像編集を一つのフレームワークで統一し、かつ軽量なモデルで大規模モデルに匹敵する性能を実現することを目指したのがDeepGen 1.0です。
提案手法
DeepGen 1.0は50億パラメータという比較的コンパクトなモデルでありながら、画像生成と編集の両方を高い精度でこなすことができます。その核心となるのが、Stacked Channel Bridging(SCB)と呼ばれる独自の特徴融合フレームワークです。
SCBは、Vision-Language Model(視覚と言語を統合的に処理するモデル)の複数の層から階層的な特徴を抽出し、学習可能なトークンと融合させることで、生成バックボーン(画像を実際に生成するモジュール)を効果的にガイドします。これにより、テキストの意図を画像に正確に反映させることが可能になります。

学習プロセスは3段階で構成されています。第1段階のアライメント事前学習では、約5000万件の画像-テキストペアと編集用トリプレット(入力画像・編集指示・出力画像の組)を使ってモデルの基礎的な理解力を構築します。第2段階の統合教師あり微調整(Joint SFT)では、画像生成・画像編集・推論タスクを同時に学習させ、モデルが複数のタスクをバランスよく習得できるようにしています。
第3段階ではMR-GRPO(Mixture of Reward Group Relative Policy Optimization)という強化学習手法を導入しています。これは複数の報酬関数を組み合わせたもので、画像の品質・テキストとの整合性・編集精度といった複数の観点からモデルの出力を改善していく仕組みです。この統一的な報酬フィードバックにより、生成と編集の両方のタスクで性能を底上げすることに成功しました。

実験結果
DeepGen 1.0の性能は、はるかに大規模なモデルを上回る結果を示しています。画像生成タスクでは、WISEベンチマークにおいて800億パラメータのHunyuanImageを28%上回るスコアを達成しました。パラメータ数が16分の1であることを考えると、驚異的な効率性といえるでしょう。
モデル | パラメータ数 | ベンチマーク | DeepGen比 |
|---|---|---|---|
HunyuanImage | 800億 | WISE(生成) | DeepGenが28%上回る |
Qwen-Image-Edit | 270億 | UniREditBench(編集) | DeepGenが37%上回る |
DeepGen 1.0 | 50億 | 両方 | — |
画像編集タスクにおいても、UniREditBenchで270億パラメータのQwen-Image-Editを37%上回る性能を記録しています。このように、生成と編集の両方で既存の大規模モデルを大きく超える性能を、わずか50億パラメータで実現した点は注目に値します。
学習データも約5000万サンプルと、大規模モデルと比較すると控えめな量であり、計算資源の観点からも効率的なアプローチであることが確認されました。
まとめと今後の展望
DeepGen 1.0は、「軽量でも高性能」という可能性を具体的に示した研究です。50億パラメータという現実的なモデルサイズで、画像生成と編集の両方を統合的に扱い、かつ大規模モデルを凌駕する性能を達成しました。SCBによる効率的な特徴融合と、3段階の学習戦略(特にMR-GRPOによる統一報酬フィードバック)が、この成果の鍵となっています。
研究チームは学習コード・モデル重み・データセットをすべてオープンソースとして公開する方針を表明しており、今後の研究コミュニティへのインパクトが期待されます。軽量モデルで高性能を実現できるということは、GPU資源が限られた研究機関や企業でもマルチモーダルAIの活用が広がる可能性を示唆しています。
一方で、50億パラメータモデルの汎化性能や、極めて複雑な編集指示への対応力については、より多様なベンチマークでの検証が必要でしょう。また、実際のアプリケーションへのデプロイ時の推論速度やメモリ効率についても、今後の詳細な分析が待たれます。

