Colored Noise Samplingとは？拡散モデルの生成品質をFID 24%改善する新手法

拡散モデルが低周波を先に解像するスペクトルバイアスを活用し、周波数ごとのノイズエネルギーを動的配分するColored Noise Sampling（CNS）を提案
SiT-XL/2でFIDが8.26→6.27（約24%改善）、JiT-H/16で11.88→8.31とImageNet-256で複数アーキテクチャにわたる一貫した性能向上を実証
追加学習不要でSiT・JiT・FLUXなど既存モデルに即適用可能で、CFGや学習時スペクトル最適化とも組み合わせられる汎用性が特長

研究の背景と課題

拡散モデルによる画像生成では、ノイズを段階的に除去していく「サンプリング過程」の品質が最終的な出力を左右します。この過程には確率微分方程式（SDE）を使う確率的な手法と、決定論的なODEを使う手法の2種類があります。SDE系は乱数を活用して多様な出力が得られる利点がありますが、「どのようなノイズをどのタイミングで注入するか」という設計は、これまで全周波数に均等な白色ノイズを用いるのが一般的でした。

ところが拡散モデルには「スペクトルバイアス（周波数ごとの処理順序の偏り）」という特性があることが分かっています。低周波成分（画像の大まかな構造や配色）はサンプリングの早い段階で固まり、高周波成分（テクスチャや輪郭の細かい情報）は後のステップまで形成が続く傾向があります。均一な白色ノイズを注入し続けると、すでに解像済みの周波数帯を無駄に乱すことになり、生成品質を損なう非効率が生じます。

本論文「Colored Noise Diffusion Sampling」は、この非効率に直接向き合い、周波数ごとにノイズエネルギーを賢く配分することで推論時の生成品質を高める手法を提案しています。

図1: ImageNet-256（SiT-XL/2、CFGあり）での生成サンプル比較。標準SDEが均一な白色ノイズを注入するのに対し、CNSは未解決の周波数帯にノイズエネルギーを動的に再配分し、より精細で現実的な出力を実現する。

スペクトルバイアスとは？

「スペクトルバイアス」を直感的に言うと、「ぼんやりした輪郭から徐々に細部が描かれる」という現象です。サンプリング初期には全体の構図や色合いが決まり、後半になるほど毛並みや布のテクスチャといった細かい情報が補完されます。

論文ではこの現象を「解決進度指数 γ(f,t)」という指標で定量化しています。これは「周波数帯 f の情報がタイムステップ t でどの程度完成しているか」を0〜1で表す数値です。低周波成分はサンプリング初期からγが高く、高周波成分はステップが進むにつれてγが上がる特性を示します。

図3: サンプリング過程における周波数帯の時系列変化。低周波成分（左側）が早い段階で解決され、高周波成分（右側）が後半のステップにかけて構築されていく様子が可視化されている。

CNSの仕組み

CNSの核心は「今まだ未解決な周波数帯に、より多くのノイズエネルギーを割り当てる」という発想です。すでに固まった周波数帯に余計なノイズを加えても生成品質が下がるだけなので、解決済みの帯域へのノイズを抑え、これから解決される帯域に集中的に配分します。

具体的には、フーリエ変換（FFT）でノイズを周波数成分に分解し、γ(f,t) に基づいて各成分の強度を調整してから逆変換で空間ドメインに戻します。この操作全体で注入するノイズエネルギーの総量は変えず、あくまで「どの周波数帯にどれだけ配分するか」だけを変えるのが重要な点です。総量を保つことで既存の学習済みモデルと互換性を維持できます。

「白色（white）ノイズ」は全周波数が均等なエネルギーを持ちます。一方、低周波に偏ったものを「赤色（red）ノイズ」、高周波に偏ったものを「青色（blue）ノイズ」と呼びます。CNSは生成の進行に合わせてノイズの「色」を動的に変化させるため、Colored Noise Samplingという名前が付けられました。

図4: 生成分布と実データのパワースペクトル比較。標準ODEは低周波を過剰生成・高周波を不足生成し、標準SDEはスペクトル全体でエネルギーが不足する。CNSはこの「スペクトルギャップ」を最も効果的に縮小し、実データの分布に近い周波数特性を実現する。

実験結果

ImageNet-256ベンチマーク（FID-50K、ガイダンスなし）では、複数のアーキテクチャにわたって顕著な改善が確認されました。SiT-XL/2ではFIDが8.26から6.27へと約24%改善し、ピクセル空間で動作するJiT-H/16では11.88から8.31へ改善しています。潜在変数空間と画素空間の両方で効果が得られる点は、手法の汎用性を示しています。

モデル	標準SDE（FID）	CNS（FID）	改善率
SiT-XL/2	8.26	6.27	約24%
JiT-H/16	11.88	8.31	約30%
JiT-B/16	32.39	26.69	約18%

Classifier-Free Guidance（CFG）を使った条件付き生成においても改善は維持されます。SiT-XL/2にCFGスケール1.5を適用した設定では、FIDが2.06から1.98へと改善しました。テキストから画像を生成するFLUX.1-devやFLUX.2-kleinへの適用でも、人間の好みとの一致度を示すImageRewardスコアが0.965から1.012へ向上しています。

図6: FID-50Kとサンプリングステップ数の関係。ステップ数が十分にある設定では、CNSが標準ODEおよび標準SDEを一貫して上回るFIDを達成している。

さらに、Blue Noise Diffusion（BND）など学習段階でスペクトル特性を最適化済みのモデルに適用しても追加改善が得られています（AFHQ Cat: FID 9.19→7.49）。CNSは学習戦略とは独立した直交的な改善手段であることも確認されています。CollectionLoRAのような学習時の工夫と組み合わせることも可能で、推論品質向上の手段として幅広い適用が期待できます。

限界と今後の展望

CNSの主な制約は、SDEフレームワークへの依存です。確定的なODEサンプラー（DDIM等）では確率的なノイズ注入が存在しないため、そのままでは適用できません。超高速推論（数ステップのみ）ではODEの方が依然として有利な場面があります。また、FFT操作による計算コストが若干増加しますが、論文によれば品質向上と比べてトレードオフは有利とされています。

著者らは今後の方向性として、決定論的サンプラーへの周波数依存エネルギー誘導の拡張や、時間次元を持つ動画生成への応用を挙げています。動画では時間方向を含めた周波数解析が可能になるため、さらなる応用が期待されます。

「ノイズに色を付ける」という直感的な概念で、追加学習なしに複数の主要アーキテクチャで一貫した改善を実現した本研究は、拡散モデルの推論品質向上という観点で実用的な貢献をしています。既存モデルをそのまま活用できるプラグイン型の設計は、実装コストを抑えたい研究者やエンジニア双方にとって取り組みやすい選択肢です。

Colored Noise Diffusion Sampling

Abstract page for arXiv paper 2605.30332: Colored Noise Diffusion Sampling

arxiv.org

拡散モデルが低周波を先に解像するスペクトルバイアスを活用し、周波数ごとのノイズエネルギーを動的配分するColored Noise Sampling（CNS）を提案
SiT-XL/2でFIDが8.26→6.27（約24%改善）、JiT-H/16で11.88→8.31とImageNet-256で複数アーキテクチャにわたる一貫した性能向上を実証
追加学習不要でSiT・JiT・FLUXなど既存モデルに即適用可能で、CFGや学習時スペクトル最適化とも組み合わせられる汎用性が特長