Sumiとは？1.5兆トークンで訓練した7B Uniform拡散言語モデルが自己回帰モデルと同等性能を達成

研究の背景

拡散型言語モデルは自己回帰モデルとは異なる生成メカニズムを持ち、理論上は柔軟な編集や並列生成が可能です。しかし、これまで拡散LMは小規模な実験にとどまり、「大規模訓練でも自己回帰モデルと競えるのか」という根本的な問いに答えられていませんでした。

本研究は、Uniform Diffusion Language Model（UDLM）を7Bパラメータ・1.5兆トークンという大規模設定でゼロから訓練し、自己回帰モデルとの直接比較を可能にした初の試みです。これにより、拡散LMのスケーラビリティと実用性を検証する参照点を提供しています。

Uniform Diffusion LMは、従来のマスク拡散モデルとは異なり、「任意のトークンが任意のステップで更新可能」という柔軟な仕組みを持ちます。自己回帰モデルが左から右へ順番にトークンを生成するのに対し、UDLMは複数のトークンを並列に確率的に更新していく方式です。

この仕組みにより、生成途中での局所的な編集や、文脈に応じた動的な生成順序の調整が理論上可能になります。ただし、大規模訓練での性能が実証されていなかったため、本研究がその検証を担っています。

Sumiは7B（70億）パラメータを持ち、1.5兆トークンという大規模な訓練予算で学習されました。訓練は事前訓練（1.3兆トークン）とミッド訓練（250億トークン）の2段階で構成され、データ配合は公開コーパスから完全に指定されています。

知識・推論・コーディングの各ベンチマークでは、同等の計算量で訓練された自己回帰モデルと競争力のある性能を示しました。これは、拡散LMが大規模設定でもスケールすることを示す重要な結果です。

ベンチマーク評価では、知識（MMLU）、推論（GSM8K、MATHなど）、コーディング（HumanEval、MBPPなど）で自己回帰モデルと同等の性能を達成しました。一方、常識推論（Arc-Easy、Arc-Challenge）では劣後しています。

論文はこの差を「データ配合の違い」と分析しており、教育中心のデータセットに偏った配合が常識推論の弱さにつながったと指摘しています。これは、拡散LMの性能がデータ戦略に強く依存することを示唆する知見です。

生成品質の評価では、キャンバス長（生成する文脈の長さ）に応じた流暢性を測定し、訓練済み範囲内では安定した性能を示しました。また、適応的サンプリング（信頼度ベース）を用いることで、効率的なトークン生成が可能であることも確認されています。

本研究は、拡散LMが大規模訓練でも自己回帰モデルと競えることを初めて実証しました。モデル重み・チェックポイント・訓練レシピの完全公開により、再現性と透明性が確保されており、今後の拡散LM研究の基盤となる成果です。

自己回帰モデルの効率化が進む中で（Variable-Width Transformersなど）、拡散LMは「編集可能性」や「並列生成」といった独自の強みを持つ選択肢として位置づけられます。今後、データ配合の最適化や推論速度の改善が進めば、実用的な応用領域が広がる可能性があります。