Unified Latents（UL）とは？拡散事前分布で正則化した潜在空間でFID 1.4を達成する新手法

拡散事前分布と拡散デコーダで潜在表現を共同正則化する新フレームワーク「Unified Latents（UL）」をGoogleが提案
エンコーダの出力ノイズと事前分布の最小ノイズレベルを対応させることで、潜在空間のビットレートに対する厳密な上界を与える訓練目的関数を実現
ImageNet-512でFID 1.4、Kinetics-600でFVD 1.3という最高水準を達成し、Stable Diffusionより少ない学習FLOPsで優れた再構成品質を確認

研究の背景

拡散モデルを用いた画像・動画生成において、潜在空間（Latent Space）の設計は生成品質を直接左右する重要な要素です。Stable Diffusionに代表される潜在拡散モデル（Latent Diffusion Model）は、変分オートエンコーダ（VAE）で画像を低次元の潜在表現に圧縮し、その空間で拡散処理を行う構成が標準的です。

従来のVAEはKL発散（Kullback–Leibler Divergence）を正則化として用い、潜在分布を単純なガウス分布に近づけます。しかしこのアプローチでは、エンコーダ・デコーダと拡散モデルが別々に最適化されるため、潜在空間が必ずしも拡散モデルにとって最適な形になるとは限りません。生成モデルと表現学習が切り離されることで、学習効率や最終的な品質に制約が生じていました。

加えて、潜在空間に格納される情報量（ビットレート）を理論的に制御する手段も乏しく、圧縮率と再構成品質のトレードオフを明示的に保証することが困難でした。この問題に対し、Google Researchのチームは潜在表現の学習方法そのものを根本から見直すアプローチで挑みました。

Unified Latentsの提案手法

図1: Unified Latentsの全体構造。エンコーダ出力を拡散事前分布で正則化しつつ、拡散デコーダで復号する統合的な学習フレームワーク

Unified Latents（UL）の核心は、潜在表現を「拡散事前分布（Diffusion Prior）による正則化」と「拡散モデルによるデコード」の両面から共同学習する点にあります。従来のVAEがガウス分布へのKL発散を正則化に使うのに対し、ULでは拡散モデルそのものを事前分布として機能させます。

特に重要なのが、エンコーダが出力する潜在表現のノイズレベルと、拡散事前分布の最小ノイズレベルを結びつけるというアイデアです。この対応関係を設けることで、潜在空間のビットレートに対する厳密な上界を与えるシンプルな訓練目的関数が自然に導かれます。つまり「潜在空間にどれだけ情報を詰め込むか」を理論的に制御できるようになります。

デコーダには通常のニューラルネットワークではなく、拡散モデルを採用します。その結果、エンコーダ・事前分布・デコーダが一体として最適化され、潜在表現は拡散モデルが自然に扱いやすい形へと整えられます。この統合的な学習が、Stable Diffusionの潜在空間で訓練されたモデルと比較して少ない学習FLOPs（浮動小数点演算回数）でも競争力のある性能を達成する要因となっています。

また、画像と動画を問わず同一フレームワークで扱える汎用性も特徴です。連続潜在表現を離散トークンで扱うUniWeTokとは？超大規模コードブック2^128で画像再構成・理解・生成を統合する新手法とは異なるアプローチで、連続空間における正則化の精緻化によって同様の統一的な取り扱いを実現しています。

実験結果

ULはImageNet-512（静止画）とKinetics-600（動画）の2つのベンチマークで評価されています。生成品質の指標として、画像ではFID（Fréchet Inception Distance、低いほど高品質）、動画ではFVD（Fréchet Video Distance、低いほど高品質）が用いられます。

データセット	指標	UL（本手法）	特記事項
ImageNet-512	FID	1.4	高PSNR（再構成品質）も達成
Kinetics-600	FVD	1.3	動画生成の新State-of-the-Art

ImageNet-512でのFID 1.4は、Stable Diffusionの潜在空間を用いたモデルと比較して競争力のある値です。生成品質（FID）と再構成品質（PSNR）の両方が高い水準に保たれており、圧縮と品質の両立が確認されています。Kinetics-600でのFVD 1.3は新しい最高水準であり、静止画・動画の双方を高精度に扱える汎用性が示されました。

まとめと今後の展望

Unified Latentsは、「潜在空間をどのように学習するか」という根本的な問いに対し、拡散事前分布との統合という新しい視点を提示しました。ノイズレベルの対応という単純な設計から、理論的に保証されたビットレート制御と高い生成・再構成品質が同時に実現されている点が印象的です。

今後は、3Dデータや音声など他のモダリティへの拡張が期待されます。潜在空間のビットレート制御という特性は、医療画像や衛星画像など圧縮率と品質のトレードオフを細かく調整したい応用分野でも活用できる可能性があります。画像・動画生成モデルの潜在空間設計に新たな指針を与える基礎研究として、今後の研究への影響が注目されます。