DiffusionBenchとは？ImageNet FIDとT2I品質が負の相関を示す21モデル評価

21の拡散変換器モデルを訓練・評価した結果、ImageNet FIDとT2I生成品質のピアソン相関が-0.38〜-0.58と負の相関を示すことを実証。長年使われてきた評価指標の信頼性を根拠とともに問い直した
NanoGenフレームワークにより、RAE・VAE・PixelSpace・MeanFlowの4種の拡散手法を12行の設定変更で切り替えて訓練・評価できる再現性の高い環境を提供
ImageNetとT2Iの両評価を統合したDiffusionBenchを提案し、将来のDiT研究はこの複合指標での報告を行うべきと勧告している

研究の背景

拡散変換器（Diffusion Transformer、DiT）の研究分野では、ImageNet上のFID（Fréchet Inception Distance）スコアが標準的な評価指標として長年使われてきました。研究者たちはこの指標の改善を競い合い、ImageNet FIDの向上を画像生成技術全体の進歩と同義のように捉えてきた面があります。

しかし、ImageNetでの評価は「クラス条件付き生成」という閉じた設定のものです。特定のカテゴリに属する画像を生成する能力と、テキスト指示に基づいて自由な画像を生成するテキスト→画像（T2I）生成の能力は、本質的に異なる問題です。両者の性能が連動しているかどうかは、これまで体系的に検証されてきませんでした。

オーストラリア国立大学（ANU）などの研究チームが発表したDiffusionBenchはこの問いに正面から取り組み、21のモデルを実際に訓練して両方の評価設定で比較する大規模な実証研究です。

NanoGen：12行で切り替わる統一フレームワーク

研究の核心にあるNanoGenは、ImageNet訓練とT2I訓練を同一コードベースで管理できる統一フレームワークです。「1つのDiTバックボーン、1つの最適化器、1つの訓練ループ、1つの評価機構」という設計原則のもと、4種類の拡散手法を網羅しています。

RAE（Rectified Autoencoder）：DINOv2やSigLIPなど視覚エンコーダに基づく潜在空間を使う手法。DINOv2-B・SigLIP2-B・PE-Lなど複数の変種を含む
VAE（Variational Autoencoder）：Stable DiffusionやFLUXなどが採用する畳み込みベースの潜在空間。SD-VAE・SDXL-VAE・FLUX.1-VAEなど6種を評価
PixelSpace：潜在空間を経由せずピクセルを直接処理する手法（JiT、PixNerd、PixelGenなど）
MeanFlow：1〜2ステップでの高速生成を目指す最新手法

ImageNet設定からT2I設定への切り替えは、設定ファイル約12行の変更だけで完了します。バックボーンにはDDT（Decoupled Diffusion Transformer）を採用し、AdaLN（Adaptive Layer Normalization）をエンコーダ部分から分離した構造を取っています。訓練には32台のH200 GPUを使用し、100Kステップの訓練でT2Iも概ね10時間程度と、ImageNet訓練と比較可能なコストでした。

図1: 各手法のImageNetとT2I訓練にかかる実測時間（100Kステップ、32台H200 GPU）。PixelSpace手法はVAE計算が不要なためImageNetで大幅に速いが、T2I訓練コストは潜在空間手法と概ね同等。MeanFlowはtorch.jvpによるオーバーヘッドでT2Iが特に低速

実験結果：負の相関という逆説

21モデルを実際に訓練し、ImageNet FIDとT2I評価指標の相関を調べた結果、ピアソン相関係数は-0.377から-0.580という範囲に収まりました。三つの評価指標（GenEval、DPG-Bench、GenAIBench）のいずれに対しても、強い正の相関は確認されませんでした。

この数値が示すのは「弱い負の相関」です。ImageNet FIDが低い（良い）モデルほど、T2I品質が低い傾向があるということを意味します。正の相関であればImageNet性能をT2Iの代理指標として使えましたが、実際には逆の傾向が観察されました。

図2: ImageNet FIDとT2I評価指標（GenEval・DPG-Bench・GenAIBench）のピアソン相関。RAEとVAE手法全体でいずれの指標に対しても強い正の相関は確認されず、ImageNet FIDがT2I品質を予測できないことを示す

具体的な結果を見ると、RAE系のSpatialPE-LはImageNet FIDで優秀な値を記録しながら、T2I品質は評価対象の中で最低水準でした。一方、T2Iで最も高い結果を示したのはE2E-Qwen-Image-VAEとFLUX.2-VAE+REGで、それぞれGenEval 0.691・0.687、DPG-Bench 0.835・0.830という数値でした。PixelSpace系の手法は、ImageNet・T2Iの両方で潜在空間手法を大きく下回り、この差が大きすぎるために相関係数を人工的に膨らませるとして主要な分析から除外されています。

MeanFlowは1ステップ（FID 6.60）・2ステップ（FID 5.40）と多段階の手法に大きく遅れを取り、T2Iでも現時点では劣位でした。T2I訓練時にtorch.jvpを使うMeanFlow目的関数の計算コストが大きく、他手法の2倍以上の時間を要することも確認されています。

図3: NanoGenの潜在空間手法による256×256のT2I生成サンプル。100K・200Kステップ訓練後のモデルを共通プロンプトセットで評価。定量スコアとの対応はTable 3に記載

まとめ

DiffusionBenchが突きつけた事実は、画像生成研究が依存してきた評価の枠組みを根拠とともに問い直すものです。ImageNet FIDの最適化がT2I品質の向上につながらない以上、ImageNetのみを報告する研究は実際の有用性を正しく示せない可能性があります。

著者らはImageNetとT2Iの両評価を組み合わせた「DiffusionBench」スコアを将来の標準として提唱しています。FreeStyleのようなスタイル制御を扱う画像生成研究においても、どの評価軸で進歩を測るかは結果の解釈を左右する根本的な問題です。DiffusionBenchはその土台を実験的に再点検した貢献と言えます。

NanoGenは公開されており、12行の設定変更で各手法を再現できる環境が整っています。ただし今回の実験は256×256解像度が主体であり、高解像度や異なるアーキテクチャへの知見の一般化については今後の検証が必要です。

DiffusionBench: On Holistic Evaluation of Diffusion Transformers

Abstract page for arXiv paper 2606.24888: DiffusionBench: On Holistic Evaluation of Diffusion Transformers

arxiv.org

21の拡散変換器モデルを訓練・評価した結果、ImageNet FIDとT2I生成品質のピアソン相関が-0.38〜-0.58と負の相関を示すことを実証。長年使われてきた評価指標の信頼性を根拠とともに問い直した
NanoGenフレームワークにより、RAE・VAE・PixelSpace・MeanFlowの4種の拡散手法を12行の設定変更で切り替えて訓練・評価できる再現性の高い環境を提供
ImageNetとT2Iの両評価を統合したDiffusionBenchを提案し、将来のDiT研究はこの複合指標での報告を行うべきと勧告している

研究の背景

NanoGen：12行で切り替わる統一フレームワーク

RAE（Rectified Autoencoder）：DINOv2やSigLIPなど視覚エンコーダに基づく潜在空間を使う手法。DINOv2-B・SigLIP2-B・PE-Lなど複数の変種を含む
VAE（Variational Autoencoder）：Stable DiffusionやFLUXなどが採用する畳み込みベースの潜在空間。SD-VAE・SDXL-VAE・FLUX.1-VAEなど6種を評価
PixelSpace：潜在空間を経由せずピクセルを直接処理する手法（JiT、PixNerd、PixelGenなど）
MeanFlow：1〜2ステップでの高速生成を目指す最新手法