Representation Forcingとは？VAEを排除して画像生成と理解を統合する新手法

事前学習済みVAEへの依存を排除し、デコーダが視覚表現を自己回帰予測する新アーキテクチャ「Representation Forcing（RF）」をByteDance Seedが提案
テキスト対画像生成の総合評価指標GenEvalで0.84を達成し、VAEベース手法との差をほぼ解消（0.76対0.77）
EMAエンコーダとオンライン量子化による離散表現の予測が、外部潜在空間なしに拡散過程へ構造的ガイダンスを与える

研究の背景

画像の生成と理解を1つのモデルで処理する「統合マルチモーダルモデル（Unified Multimodal Model、UMM）」は近年急速に発展しています。しかし既存のUMMには、画像をコンパクトな潜在表現に変換するVAE（Variational Autoencoder、変分オートエンコーダ）を外部から取り込む設計が定着しており、このVAEが構造上のボトルネックになっていました。

VAEへの依存には2つの問題があります。1つ目は事前学習済みのVAEが生成と理解の両タスクを同時に最適化したものではない点、2つ目はVAEの潜在空間の表現能力に生成品質が縛られてしまう点です。かといってVAEをそのまま取り除くと、構造的なガイダンスが失われて生成品質が大幅に低下します。この板挟みの解消が、本研究の出発点でした。

Representation Forcingの仕組み

図1: アーキテクチャ比較。（a）従来のUMMはVAEをボトルネックとして持つ、（b）VAEを取り除くと構造ガイダンスが失われる、（c）RFはデコーダ自身が視覚表現を予測し、外部潜在空間なしに拡散をガイドする

ByteDance Seedが提案したRepresentation Forcing（RF）の核心は、「デコーダ自身が視覚表現を中間トークンとして自己回帰的に予測し、それをピクセル拡散のガイドに使う」というアイデアです。視覚表現の予測をモデルの基本機能として組み込むことで、外部の潜在空間への依存を根本から解消します。

図2: 学習パイプライン。デコーダはテキスト（T）、表現（R）、ピクセルパッチ（P）を統一シーケンスで処理し、3つの損失関数を同時に最適化する。推論時はEMAエンコーダを使わず、デコーダがテキストから表現トークンを直接予測する

学習時には、EMA（指数移動平均）コピーのエンコーダが正解画像から視覚特徴を抽出します。その特徴は、K=16,384個のプロトタイプを持つオンライン量子化によって離散的な表現トークン列に変換されました。デコーダはこのトークンを予測する損失（ℒRep）と、テキスト予測（ℒLM）、ピクセルのフロー・マッチング（ℒFM）の3成分を合算した損失で学習します。

推論時はEMAエンコーダを一切使わず、デコーダがテキストプロンプトだけから表現トークンを生成します。予測された表現はコンテキスト内に残り、後続のピクセル拡散に構造的なガイダンスを提供します。VAEも外部潜在空間も不要で、同一のトランスフォーマーバックボーンが生成から理解まで担う点が大きな特徴です。

離散表現の予測が重要な役割を果たしていることもアブレーション実験で示されています。連続値の回帰で代替した場合、GenEvalスコアは0.26にとどまりましたが、離散予測では0.76に達しました。補助的なアライメント手法（REPA）の0.43と比較しても、直列配置での予測がはるかに有効です。

実験結果

テキスト対画像生成の総合評価指標であるGenEval（テキスト内容の忠実度を複数属性で評価するベンチマーク）では、LLMによる書き換えなしでスコア0.84を達成しました。書き換えありでは0.88まで上昇し、BAGEL基準モデルの0.82を上回り、BLIP3-oの0.84と同等です。別の生成品質評価指標DPG-Benchでは84.15を記録しています。

図3: RF有無による生成品質の比較。RFなしでは物体の輪郭が崩れ構図も不整合になりやすいが、RFを加えることで高レベルな視覚表現が先に確定し、ピクセル生成の構造的誘導が実現される

アブレーション実験では、RF効果が明確に確認されました。RF無しでピクセル空間から直接生成した場合のGenEvalスコアは0.25でしたが、RFを加えると0.76に改善されています。これはVAE+RF構成（0.77）とほぼ同等であり、VAE無しのピクセル生成（0.52）との差が大きく縮まったことを示します。

画像理解タスクでは8つのベンチマーク中6つでVAEベース手法を上回りました。MMMU（マルチモーダル理解）では49.9から54.2へ4.3ポイント、AI2Dでは85.8から90.3へ4.5ポイントの改善です。DocVQAとChartQAでは若干の低下（各-2.0、-0.4）が見られるものの、全体的な理解性能はVAEベース手法を超えました。

まとめと今後の展望

Representation Forcingは、統合マルチモーダルモデルにおいて長年「必須」と見なされてきたVAEへの依存を設計レベルで解消する手法です。デコーダが視覚表現を自己回帰的に予測するという機構が、外部の潜在空間を代替できることを実証した点が重要な成果でした。

音声と映像をネイティブに同期生成するNAVAなど、複数のモダリティを単一バックボーンで統合する研究が活発化する中、RFのアーキテクチャが画像以外のモダリティにどこまで応用できるかは今後の重要な問いです。DocVQAなど文書理解系のタスクで若干劣る点も残っており、表現トークンの設計やコードブック規模の最適化などが改善の余地として挙げられます。生成と理解を単一モデルで端から端まで処理するという方向性は、マルチモーダル研究全体に広い示唆をもたらすでしょう。