拡散モデル（Diffusion Model）とは？DDPMからFlow Matchingまで仕組みを図解

DDPMはガウスノイズを段階的に付加する「順拡散」と、逆向きにノイズを除去する「逆拡散」の2プロセスで学習・生成を行います。
DDIMとLatent Diffusion Modelにより推論の高速化と高解像度化が実現し、Stable Diffusionとして広く普及しました。
Flow MatchingとDiTアーキテクチャが次世代の標準となり、Stable Diffusion 3・FLUX・Soraなど最先端モデルを支えています。

拡散モデルとは何か

拡散モデル（Diffusion Model）とは、データに段階的にノイズを加えて壊し、その過程を逆向きに学習することで新しいデータを生成する機械学習モデルです。2020年にHoらが発表した「DDPM（Denoising Diffusion Probabilistic Models: ノイズ除去拡散確率モデル）」が火付け役となり、画像・音声・動画生成の分野で急速に普及しました。

直感的なイメージとしては、「コップの水に一滴のインクを垂らすと、分子が拡散して均一に広がっていく」物理現象が参考になります。この現象から着想を得て、画像をランダムなノイズへ変換するプロセスを数式でモデル化し、それを「逆再生する方法」をニューラルネットワークに学習させるのが拡散モデルの核心です。

GAN・VAEと何が違うのか

拡散モデルを理解するうえで、先行する生成モデルとの比較は役立ちます。GAN（Generative Adversarial Network: 敵対的生成ネットワーク）は高品質な画像を生成できますが、学習が不安定で「モード崩壊」と呼ばれる特定のパターンしか生成できなくなる問題がありました。VAE（Variational Autoencoder: 変分オートエンコーダ）は学習が安定している一方で、生成画像がぼやけやすいという弱点があります。

モデル	生成品質	学習安定性	多様性	主な弱点
GAN	高い	不安定	低い	モード崩壊
VAE	中程度	安定	高い	ぼやけた出力
拡散モデル	非常に高い	安定	非常に高い	生成速度が遅い

DDPMの2つのプロセス

順拡散プロセス

DDPMの学習は「順拡散プロセス（Forward Process）」から始まります。学習データの画像（x₀）に少量のガウスノイズを繰り返し加えていき、T ステップ後に純粋なノイズ（xT）になるまで段階的に壊します。各ステップで追加するノイズの量は「ノイズスケジュール」と呼ばれるパラメータで制御され、最終的に画像はランダムノイズと区別がつかなくなります。

この過程は「マルコフ連鎖」として定式化されており、時刻 t の状態は直前の t-1 の状態のみに依存します。重要なのは、順拡散プロセスにはニューラルネットワークの学習が必要ないという点です。数式で決まった確率的プロセスとして定義されており、T ステップ後の状態は常にガウス分布に収束します。

逆拡散プロセス

モデルの「学習」が行われるのが「逆拡散プロセス（Reverse Process）」です。U-Net をベースにしたニューラルネットワークが、ノイズの多い画像 x_t から「少しだけノイズが少ない」状態 x_{t-1} を予測することを学習します。具体的には、各タイムステップ t で加えられたノイズ ε そのものを予測するよう訓練されます。

推論時は純粋なガウスノイズ（xT）から出発し、学習した逆拡散ステップを T 回繰り返すことで、徐々に意味のある画像を生成します。「一気に完成画像を作る」のではなく、「少しずつノイズを取り除く」反復プロセスが品質向上の鍵です。

DDIMによるサンプリング高速化

DDPMの大きな課題は生成速度でした。高品質な画像を得るには 1,000 ステップ以上の逆拡散が必要で、実用上の障壁となっていました。これを解決したのが 2020年に提案された DDIM（Denoising Diffusion Implicit Models）です。

DDPMが確率的（ランダムな要素を含む）サンプリングを行うのに対し、DDIMは決定論的なサンプリングを採用します。同じ学習済みモデルをそのまま使いつつ、サンプリングステップを 50〜100 に削減しても品質をほぼ維持できます。また、同じ初期ノイズから出発すれば常に同じ画像が得られる「再現性」も利点の一つです。

Stable Diffusionの仕組み

潜在空間での拡散

2022年に公開された Stable Diffusion は、「Latent Diffusion Model（LDM）」という手法を採用することでブレークスルーを起こしました。従来の拡散モデルは画像のピクセル空間（例：512×512 ピクセル = 786,432 次元）で拡散を行っていましたが、LDM は VAE（変分オートエンコーダ）で画像を低次元の潜在空間（64×64 程度）に圧縮してから拡散させます。

これにより計算コストが大幅に削減され、一般的な GPU で高解像度の画像生成が可能になりました。潜在空間の拡散が完了した後、VAE のデコーダが潜在表現を元の画像空間に復元します。

CLIPによるテキスト条件付け

テキストプロンプトから画像を生成するには、言語と視覚の橋渡しが必要です。Stable Diffusion では CLIP（Contrastive Language-Image Pretraining）と呼ばれるモデルがテキストを埋め込みベクトルに変換し、U-Net の「クロスアテンション（Cross-Attention）」機構を通じて各デノイジングステップに条件付けを行います。これにより「青い空に飛ぶ龍」といったテキストを視覚的な特徴として拡散過程に反映できます。

DDPM・DDIM・Flow Matchingを比較する

項目	DDPM	DDIM	Flow Matching
サンプリングステップ	1,000+	50〜100	10〜50
サンプリング方式	確率的	決定論的	決定論的ODE
学習目標	ノイズ予測	ノイズ予測	速度場（ベロシティ）予測
軌跡の形状	曲がりくねる	曲がりくねる	直線的
代表モデル	DALL-E 2	Stable Diffusion 1/2	SD3, FLUX, Sora

Flow Matchingへの進化

Flow Matching は 2022〜2023年にかけて注目を集めた新しいパラダイムです。拡散モデルが「ノイズを段階的に除去する確率的プロセス」で学習するのに対し、Flow Matching は「ノイズ分布からデータ分布へ向かう速度場（Velocity Field）」を直接学習します。

イメージとしては、DDPMが「でこぼこした山道を何百歩も歩いてゴールに到着する」のに対し、Flow Matching は「直線のルートを少ないステップで進む」ようなものです。軌跡が直線的になるため、より少ないステップで高品質なサンプルが生成でき、学習も安定します。

学習目標もシンプルになります。DDPMがノイズ ε を予測するのに対し、Flow Matching はデータ点とノイズの間の速度ベクトルを予測します。損失関数は単純な平均二乗誤差（MSE）で、理論的な保証もより明快です。Stable Diffusion 3（SD3）・FLUX.1・OpenAI の Soraは Flow Matching をベースとしており、現在の最先端モデルの標準技術となっています。

DiTアーキテクチャとSoraへの展開

U-Net をニューラルネットワークのバックボーンとして使うのが長年の主流でしたが、2022年に「DiT（Diffusion Transformer）」が登場し、アーキテクチャの刷新が始まりました。DiT は U-Net を Transformer に置き換えたモデルです。Transformer はAttention機構を核とした高いスケーラビリティを持ち、パラメータ数を増やすほど性能が向上する「スケーリング則」が明確に機能することが確認されています。

DiT と Flow Matching の組み合わせは現代の画像・動画生成モデルの定番となっており、Stability AI の Stable Diffusion 3、Black Forest Labs の FLUX.1 がその代表例です。OpenAI が 2024年に発表した動画生成モデル「Sora」も DiT を採用しており、動画のフレームをパッチ単位で処理する「Spacetime Patch」という手法で長尺・高品質動画の生成を実現しています。

活用領域とこれから

拡散モデルの応用範囲は画像生成にとどまりません。現在活発に研究・実用化が進んでいる領域は以下のとおりです。

動画生成: Sora、Wan2.1、CogVideoX など時間軸を含む拡散
音声・音楽生成: AudioLDM、MusicLDM によるオーディオ合成
3D・分子設計: 新素材・創薬分野での分子構造生成
画像編集: インペインティング（部分補完）・アウトペインティング（外挿）
医療画像: MRI 超解像、合成データによるデータ拡張

2026年現在、Flow Matching と DiT を組み合わせたアーキテクチャが次世代の標準として確立しつつあります。一方、Consistency Model（一貫性モデル）など「さらに少ないステップで高品質生成を目指す」研究も進んでおり、リアルタイム生成の実現が現実味を帯びています。拡散モデルの基礎にある「壊してから学ぶ」という発想は、画像以外の領域にも広がり続けており、この技術の仕組みを理解することは生成AIの現在地と未来を読み解くうえで欠かせない知識となっています。