- 拡散モデルの推論時間の効率化を図る新しい検索アルゴリズムと評価フレームワークの提案
- 生成データの質を高めるためのVerifierモデルと3つの検索アルゴリズムの比較
- 複数のベンチマークタスクで提案手法が高品質な生成を達成し計算時間を削減できることの確認
論文:Inference-Time Scaling for Diffusion Models beyond Scaling Denoising Steps
本記事で使用している画像は論文中の図表、またはそれを参考に作成した画像を使用しております。
本論文の概要
この論文では、拡散モデル(Diffusion Models)における推論時間の効率化の課題に焦点を当てています。従来の拡散モデルでは、高品質な生成結果を得るために多くの反復回数が必要とされ、計算コストが高いという問題があります。本研究では、この問題を解決するために、特定の応用タスクに適応した新しい検索アルゴリズムと評価フレームワークを提案しました。
提案手法では、生成されたデータの質を評価する「Verifier」(評価器)と呼ばれるモデルを活用し、推論過程を最適化します。具体的には、(1) ランダムサーチ、(2) Zero-Orderサーチ、(3) Search Over Paths の3つの検索アルゴリズムを比較し、それぞれのパフォーマンスを複数のタスクで評価しました。Zero-Orderサーチは、Verifierのフィードバックを活用してノイズ候補を反復的に最適化する手法です。一方、Search Over Pathsでは、拡散過程の複数の経路を考慮し、Verifiersの評価スコアに基づいて最適な候補を選択します。
実験結果では、提案した検索アルゴリズムが複数のベンチマークタスク(例:テキストから画像生成)で高品質な生成結果を達成できることを示しました。特に、Verifierに画像セマンティクスに基づいた評価指標を組み込むことで、生成過程がタスク特有の制約に適合するよう調整できることが確認されています。また、特定の応用例では従来の拡散モデルと比較して計算時間を効率的に削減可能であることがわかりました。
図表の解説

この図は、生成モデル、特に拡散モデルの推論時のスケーリングに関する研究結果を示しています。図には、FIDやCLIPScoreなど、モデルの性能指標がどのように推論計算量に応じて変化するかが示されています。 上部の青と赤のグラフは、ImageNetデータセットにおけるFID(低いほど良い)とIS(高いほど良い)の推移を示しています。左の青い矢印と右の赤い矢印は、ノイズ探索を組み込むことで計算量を増やしても性能が向上することを示します。 下部の緑とオレンジのグラフでは、DrawBenchでのCLIPScoreとAesthetic Scoreが示されています。矢印が指しているように、探索を用いることで、単にノイズステップを増やすだけの方法よりも有意な性能改善が見られることが分かります。 これにより、拡散モデルの性能向上における新しい推論のアプローチの有効性が確認されました。

この図表は、FLUX.1-devモデルのT2I-CompBenchでの検索性能を示しています。図表の最初の行は、検索を行わない状態での性能を示し、左の列から右へ順に各カテゴリ(カラー、形状、テクスチャ、空間、数値、複雑さ)のスコアが記載されています。続く行は異なる検証器を用いて検索を実施した際の性能を示しています。 例えば、ImageReward検証器を使った場合、カラーやテクスチャ、空間などのカテゴリーでスコアが向上していることがわかります。また、複数の検証器を統合したアンサンブルでは、各カテゴリでバランスよくスコアが向上しています。このように、検証器の選択によって生成モデルの性能が異なることを確認しており、それが具体的な生成タスクにどう影響するかを評価しています。

この図は、3つの検索アルゴリズム「ランダムサーチ」「ゼロオーダーサーチ」「経路上の検索」を説明しています。左の「ランダムサーチ」は、ランダムにサンプリングされた候補の中から最も良いものを選びます。中央の「ゼロオーダーサーチ」は、各ステップで少し改良された候補を新しくサンプルし、それらの中から最適なものを選択して進行します。右の「経路上の検索」は、サンプリング中間段階でノイズを加え、その候補を展開して更に良い候補を見つける方法です。これらの手法は、データ生成の際に最適なノイズを見つけ、モデルの性能を向上させるために使われます。

この画像は、AIを用いて生成された「男性が猫につまずくギリシャの彫刻」を示しています。ペーパー「Inference-Time Scaling for Diffusion Models beyond Scaling Denoising Steps」において、画像生成の質を高めるための手法を示す一環として紹介されています。特に、ノイズを調整しながらサンプリングする方法によって、生成される画像の品質向上を図っています。この画像は、生成モデルがどのようにしてユニークで複雑な構図を作り出すかを視覚的に示し、モデルが効果的に応用される可能性を示唆します。

この表は、DrawBenchでの検索アルゴリズムの性能を示しています。FLUX.1-devを使って評価されています。まず、検索を行わないときの結果が最初の行に示されており、一定のサンプル生成予算が与えられています。他の行は、検索予算が2880 NFEに固定された場合の異なる検証者とアルゴリズムの組み合わせによる結果です。それぞれの検証者(例:Aesthetic、CLIPScore、ImageReward、Ensemble)は、異なる側面で生成された画像の質を評価します。結果から、Ensembleを使用したランダム検索が他の方法よりも高い総合評価を達成していることが分かります。

この図は、ニューヨークのスカイラインを背景に「Diffusion」と書かれた花火が空に打ち上げられている様子を示しています。論文の内容から推察すると、この図は拡散モデルの生成力を示しています。拡散モデルは、画像や音声のような連続データを生成するために用いられる生成モデルの一種です。このような図は、モデルがどのように現実的で美しい画像を生成できるかの例として提示されています。拡散ステップを増やすだけではなく、より良いノイズを探すことでモデルの性能を向上させる試みの一つとして、こうした生成が可能になったことを示しているのです。

図5は、自己教師型検証器の性能を示しています。左側の図では、CLIPとDINOの機能類似度スコアとそれぞれの分類ロジットの相関関係が示されています。DINOの相関係数は0.7415と高く、CLIPの相関係数は0.3204となっており、DINOの方が分類ロジットとの類似度の関連性が強いことを示しています。右側の図は、異なる検証器(CLIPとDINO)の類似度スコアを使用して、ランダムサーチの際の計算量(NFE)が変化することで性能がどのように変わるかを示しています。ガイダンス重み(cfg)が異なる場合にも、DINOとCLIPの性能が比較されています。DINOとCLIPの間で異なるスケーリング性能が観察されています。

この画像(図26)は、論文の中で「バスの左にいる車」というキャプションがついています。さまざまな状況で車がバスの左側に配置されている様子が示されています。この図は、生成モデルが指示された文脈を理解し、それに基づいて正確な画像を生成できる能力を示しています。 論文では、生成モデルを使った画像の生成における「推論時のスケーリング」の重要性について議論されています。具体的には、生成の質を向上させる方法として、特にノイズの選択を通じて推論時の計算を増やすことへの関心が高まっています。この図はその文脈で、プロンプトに従った生成がどのように行われるかを視覚的に示しています。これにより、生成モデルがプロンプトに基づいた正確な配置を実現できることを伝えています。