Cola DLMとは？連続潜在拡散でARに挑む階層型テキスト生成の新手法

Text VAE、ブロック因果DiT、条件付きデコードの3段階で構成する階層的連続潜在拡散言語モデル
統一マルコフパス観点から潜在事前分布輸送として拡散を捉え、グローバルな意味構造とローカルなテキスト生成を分離
約2Bパラメータで8ベンチマーク・最大2000 EFLOPsのスケーリング実験を実施し、画像との統合モデリングへの道筋も提示

自己回帰の外側を探る動機

ChatGPTをはじめとする大規模言語モデル（Large Language Model、LLM）の多くは、自己回帰（Autoregressive、AR）パラダイムを採用しています。ARは左から右へ順番にトークンを生成する仕組みで、スケーリング則との相性が良く、数々の実績を上げてきました。

しかし、ARには本質的な制約があります。固定された左から右への生成順序は、文全体の意味が後半まで確定しないような構造に対して非効率になりえます。また、Transformerが長文脈処理において抱える根本的なトレードオフと同様に、ARが強制するトークン単位の逐次処理はモデルの表現能力を制限する可能性があります。

代替手法として離散拡散モデル（LLaDAなど）が研究されていますが、生成効率、スケーラブルな表現学習、グローバルな意味構造のモデル化という3要件を同時に満たすことは容易ではありませんでした。こうした背景から、連続潜在空間を活用した新しいアプローチが求められていました。

3段階の階層的設計

2026年5月にHongcan Guoらによって発表された「Cola DLM（Continuous Latent Diffusion Language Model）」は、テキスト生成を階層的な情報分解として捉え直すことでこれらの課題に取り組みます。モデルは次の3つの段階を経てテキストを生成します。

図1: Cola DLMの全体ワークフロー。学習段階1ではText VAEを再構成損失・BERT損失・KL損失で事前学習し、学習段階2ではText VAEとText DiTを勾配制御しながら共同事前学習する。推論段階ではKVキャッシュを用いた効率的なデコードを行う。

第1段階のText VAE（変分オートエンコーダ）では、テキストを連続潜在ベクトルへエンコードする方法を学習します。再構成損失、BERT損失、KL損失（カルバック・ライブラー情報量に基づく正則化）という3種類の損失関数を組み合わせることで、テキストと潜在空間の安定したマッピングが構築されます。

第2段階では、ブロック因果DiT（拡散Transformer、Diffusion Transformer）が連続潜在空間においてグローバルな意味事前分布をモデル化します。ブロック因果アテンション機構は、生成ブロック単位で因果関係を保ちながら、ブロック内部ではグローバルな文脈を捉える設計です。これにより、文全体の意味的なまとまりを維持しながら拡散プロセスを進めることができます。

第3段階では、学習済みの潜在変数を条件として与えながら、デコーダが実際のテキストトークンを生成します。推論時はKVキャッシュ（Key-Value キャッシュ）を活用し、処理の効率化を図ります。

潜在事前分布輸送という考え方

Cola DLMの設計上の特徴を理解するうえで重要なのが、統一マルコフパスという観点です。従来の離散拡散言語モデルは、マスクされたトークンを徐々に復元するプロセス（トークンレベルの観測回復）として拡散を捉えます。

一方、Cola DLMの拡散プロセスは「潜在事前分布輸送（latent prior transport）」として機能します。ノイズの多い潜在分布を意味的にまとまった事前分布へと輸送する操作であり、個々のトークンを直接予測するのではなく、文の意味構造全体を連続潜在空間でモデル化します。この分離が、ARに依存しない柔軟な非自己回帰的帰納バイアスを生み出しています。

図2: 潜在空間におけるグローバル意味構造の証拠。潜在次元が増加するにつれて最適タイムシフトが大きい位置へ移動し（左）、複数の評価指標が一貫して高い次元での大きなベスト位置を支持する（右）。この安定したクロスメトリック傾向が、潜在空間内の共有グローバル意味構造を裏付ける。

スケーリング実験の結果

研究チームは約2Bパラメータの規模で、自己回帰モデルとLLaDA（離散マスク拡散モデル）の両方のベースラインと厳密に合わせた条件で比較実験を行いました。8つのベンチマークを対象に、最大約2000 EFLOPs（エクサFLOPS、計算量の指標）に及ぶスケーリング曲線を描き、4つのリサーチクエスチョンに沿って設計選択を体系的に検証しています。

図10: 統一された少数ショット生成評価プロトコルでの全体的なスケーリング性能。8つのベンチマークとタスク平均において、Cola DLMは強いスケーリング特性を示し、最終的に最高の平均性能に達する。

実験から得られた重要な知見として、尤度指標と実際の生成品質の乖離が挙げられます。ARモデルは尤度最大化に優れますが、生成品質の観点では必ずしも最良とはならない場合があります。連続潜在モデルにおいては、生成品質指標やスケーリング挙動がモデルの真の能力をより正確に反映する可能性があると論文は示唆しています。また、デノイジングステップ数やCFGスケール（Classifier-Free Guidance、分類器不要ガイダンス）といったハイパーパラメータの影響も詳しく調査されており、実用上の設定指針も提供されています。

テキストと画像の統合へ

Cola DLMの設計が持つもう1つの意義は、テキストと連続モダリティ（画像・音声など）の統合モデリングへの自然な拡張可能性です。テキストを連続潜在空間に写すことで、画像の連続潜在表現と同じ空間でモデル化できるためです。

図14: テキストと画像の統合モデリングの予備的な定性例。左：テキストのみの継続生成と画像を条件とするテキスト生成。中央：事前学習のみによるテキスト-画像生成結果。右：テキストと画像をモダリティ固有の連続潜在変数にマッピングし、共有ブロック因果事前分布でモデル化するCola DLMの拡張構造。

論文では予備的な定性実験として、テキストのみの継続生成、画像を条件とするテキスト生成（キャプション生成）、テキストから画像への生成という3種類のタスクを統合フレームワークで実施した結果を公開しています。完成度は今後の課題として残っているものの、同一のブロック因果事前分布で異なるモダリティを扱える可能性を示した点は、将来のマルチモーダル研究に向けた具体的な道筋を提示しています。

まとめと今後の課題

Cola DLMは、Text VAE、ブロック因果DiT、条件付きデコードという3段階の階層的設計によって、自己回帰に依存しない連続潜在拡散という新しいテキスト生成の枠組みを提案しました。統一マルコフパスの観点から離散拡散とも明確に区別され、スケーリング実験によってその可能性が確認されています。

一方で、現状では同規模のARモデルと比較してベンチマーク上の絶対値でまだ差がある点、生成速度の実用化に向けた最適化、そして本格的なマルチモーダル統合という課題が残っています。99ページに及ぶ包括的な検証論文の公開とプロジェクトページの開設からも、著者らがこのアプローチを長期的な研究基盤として位置づけていることが伝わります。階層的な連続潜在モデリングというアプローチが、LLM研究の新しい潮流となるかどうか注目されます。