- 300以上の制御実験(計70万TPU時間)でテキスト→画像拡散モデルの設計原則を体系化し、公開データのみで3Bパラメータモデルi1を構築
- dual-stream型バックボーンと長スキップ接続、T5Gemma-2Bテキストエンコーダの組み合わせが鍵。5ベンチマーク平均で既存最良オープンモデルを29.5pt上回る
- モデル・コード・データ処理パイプラインをGitHubで完全公開。12Bや17Bの大規模モデルと競争できる水準を3Bパラメータで実現
研究の背景
テキストから画像を生成する拡散モデルは急速に進化していますが、高性能なモデルの多くは独自の訓練データや非公開の実装に依存しており、第三者が同等のモデルを再現することは困難な状況が続いていました。オープンソースのモデルも存在するものの、商用データの利用制限や非公開の設計判断が壁となり、真の意味で誰でも活用できる「完全なレシピ」は存在しませんでした。
スタンフォード大学の研究チームは、この問題に正面から取り組みました。「公開データと公開コードだけで最先端に迫るモデルを構築できるか」という問いを立て、300以上の制御実験を計70万TPU時間をかけて実施。モデリングとデータの設計選択が性能に与える影響を体系的に調査し、その知見を3Bパラメータのモデル「i1」として結実させています。
i1の全体像
やHiDream-I1(17B)とも競争できる水準に達している](https://images.microcms-assets.io/assets/e17f35f443c94e61a86c08462dd8c7e0/6a815f18279e49d4a96bc156c4d21a51/arxiv-fig1-1781150877034.webp?w=800&auto=format)
i1は3Bパラメータの拡散モデルで、GenEval・DPG-Bench・PRISM・CVTG-2K・LongText-Benchの5つのベンチマーク平均において、既存の完全オープンモデルを29.5パーセンテージポイント上回る性能を達成しました。パラメータ数が4倍以上の大規模モデルとも競争力を維持している点が大きな成果です。

テキストエンコーダの選択
テキストの意味をモデルに伝えるテキストエンコーダは、画像生成品質を大きく左右する要素です。研究チームはdecoder-only型の大規模言語モデル、CLIPスタイルのモデル、encoder-decoder型モデルを幅広く比較しました。

結果として、encoder-decoder型のT5Gemma-2Bが全体的に最良の性能を示しました。さらに、複数のエンコーダを組み合わせるよりも、単一の強力なエンコーダに大きなアダプタ(追加の変換層)を付ける方が効果的であることも判明しています。アダプタのサイズは2ブロック程度まで拡大すると性能が向上しますが、それ以上は追加効果が限られます。
バックボーンの比較

拡散モデルの主要アーキテクチャとして、cross-attention型・single-stream型・dual-stream型の3種を複数のモデルサイズで比較しました。dual-stream型は画像トークンとテキストトークンそれぞれに専用のパラメータを持つ構造で、最良の性能対パラメータ比を達成することが示されています。
また、従来あまり注目されてこなかった長距離スキップ接続(ネットワーク前段の出力を後段に直接つなぐ構造)の有効性も実証されました。この設計を加えるだけで、同じパラメータ数でより高い性能が得られます。拡散モデルのアーキテクチャ改善はi1以外でも活発に研究されており、設計の細部が大きな性能差を生む領域です。
データ設計の原則

i1の訓練には12種類の公開データセットが使われました。実写真7種(ImageNet-22K・YFCC100Mなど)、合成画像3種(FLUX生成画像・Midjourney v6など)、テキスト描画2種(TextAtlas・RenderedTextなど)を組み合わせています。実写真・合成画像・テキスト描画のいずれを除いても少なくとも1つのベンチマークで性能が低下するため、3種類すべてが不可欠であることが確認されました。
データ重み付けに関しては、均等重み付け(各データセットから同数サンプリング)が有力な基準となります。特定のデータセットを3倍・5倍に増量しても均等重み付けを超える性能は得られず、シンプルな均等戦略が堅牢な結果をもたらします。
合成キャプション生成においては、使用するキャプション生成モデルの選択が重要です。長く詳細なキャプションを生成するモデルほど下流の画像生成性能が向上する傾向があり、訓練データの質が性能に直結することが示されています。
多段階の訓練設計
i1は解像度を段階的に引き上げる訓練パイプラインを採用しています。256×256ピクセルの低解像度で基礎的な表現を学習したのち、512×512、最終的に1024×1024へと微調整を重ねます。512解像度への移行時にはテキスト描画能力とPRISMスコアが大きく向上します。1024解像度での訓練時にはタイムステップシフトを適用することで、さらなる性能向上が得られることも確認されています。
推論時のサンプリングステップ数については、50ステップが標準ですが20ステップまで削減しても性能低下は軽微であり、実用上は高速な生成も選択肢となります。
まとめ
i1は「完全公開のデータとコードだけで、クローズドな大規模モデルに迫る画像生成を実現できる」ことを実証した研究です。300以上の制御実験から得られた設計原則は、個別の性能競争を超えて、次世代モデルを構築する際の実践的なガイドラインとして機能します。
著者自身は、研究倫理・公平性・コンテンツ安全性の検証が現時点で限定的である点を課題として認めています。より大規模なパラメータでの性能検証や動画生成への応用など、発展的な方向性も残されています。モデル・コード・データ処理パイプラインはGitHubで完全公開されており、独自モデルの構築を検討する研究者・開発者が即座に活用できる成果となっています。
