Gamma-Worldとは？N人マルチエージェント対応の生成的世界モデルを解説

エージェントを正単体の頂点で表すSRAEにより、任意のN人環境で順列対称性を保ったエージェント識別を実現
Sparse Hub Attentionがエージェント間の通信を中継し、計算量をエージェント数の二乗から線形に削減
2プレイヤーで学習したモデルが追加学習なしで4プレイヤー環境へ汎化し、24FPSのリアルタイム動画推論を達成

研究の背景

自動運転、ロボティクス、ゲームAIなど、現実に近い複雑な場面では複数のエージェントが同じ環境に存在し、互いの行動に影響を与え合います。こうした状況でエージェントが「次に何が起きるか」を予測するために使われるのが世界モデルです。世界モデルは実際の環境を仮想的に再現し、エージェントが試行錯誤できる場を提供します。

近年はビデオ生成技術の発展とともに、画像や映像を直接出力する「生成的世界モデル」への注目が高まっています。しかしこれまでの研究の多くは1〜2プレイヤーを前提とした設計にとどまっており、3人以上のエージェントが登場する場面への対応が課題でした。エージェント数が増えるにつれて2つの難しさが生じます。1つは計算量の問題で、エージェント間の全組み合わせを考慮すると計算コストがエージェント数の二乗で膨らみます。もう1つは順列対称性の問題で、エージェントAとBが入れ替わっても環境の意味が変わらないような設計を実現する必要があります。

Gamma-Worldの提案手法

NVIDIAの研究チームが提案するGamma-Worldは、これら2つの課題をそれぞれ専用モジュールで解決します。

図1: Gamma-Worldのアーキテクチャ概要。N人分の行動入力を受け取り、エージェントごとの動画ストリームを出力する

順列対称性の問題を解くのがSimplex Rotary Agent Encoding（SRAE）です。Transformerで広く使われる位置埋め込み手法RoPE（Rotary Position Embedding）を拡張したもので、各エージェントを高次元空間の「正単体（simplex）」の頂点として表現します。正単体とは、全ての頂点が等距離に配置された図形であり、2次元では正三角形、3次元では正四面体に相当します。この幾何学的な構造を使うことで、各エージェントにそれぞれ異なる位相（回転角）を割り当てながら、エージェントの順序を入れ替えても埋め込みの意味が変わらない対称性が数学的に保証されます。事前にスロットを定義したり、エージェントに固定の番号を振ったりする必要がなく、プレイヤー数が変わっても同じ仕組みで対処できます。

計算量の問題に対応するのがSparse Hub Attention（SHA）です。N人のエージェントが全員と直接情報をやりとりする「全対全注意」はO(N²)の計算量を要します。SHAでは、学習可能な単一の「ハブトークン」が中継役となり、各エージェントはハブとだけやりとりします。エージェントAの情報はまずハブへ集約され、ハブを通じてエージェントBへ届く形になります。これにより計算量はO(N)、つまりエージェント数に対して線形になり、多人数環境への拡張が現実的な計算コストで実現します。

図2: 全対全注意（左）とSparse Hub Attention（右）の比較。ハブトークンが中継することでO(n²)からO(n)へ削減する

推論速度の向上には知識蒸留（大きなモデルの知識を小さなモデルへ転移させる手法）で構築した因果型の学生モデルを採用しています。KVキャッシング（過去の注意計算の結果を再利用する仕組み）と組み合わせることで、24FPSのリアルタイム動画生成を実現しています。

実験結果

論文の実験では、2プレイヤー設定のみで学習したGamma-Worldが、追加の再学習なしで4プレイヤー環境へ汎化できることを実証しています。SRAEによる対称な埋め込み設計がこの汎化性能を支えており、学習時に見ていないプレイヤー数への対応を可能にしています。

動画品質の評価では、スロット割当ベースのベースラインやフル注意機構を用いたモデルと比較して、映像の忠実度、エージェントの操作への追従性、複数エージェント間での視覚的一貫性の各指標で上回る結果が得られています。LLaVA-OneVision-2のような動画処理モデルでも示されているように、時系列にわたる映像の整合性を保つことは難しい課題ですが、SHAによる効率的なエージェント間情報共有がこの一貫性改善に寄与しています。

計算効率の面では、SHAの導入によってエージェント数が増えても推論コストが線形スケールに収まることが確認されており、実用的な多人数シナリオへの展開を支える結果となっています。

まとめと今後の展望

Gamma-Worldは、生成的世界モデルを多人数環境へ拡張する際の2つの根本的な課題に対して明快な解答を示しました。SRAEは正単体の幾何学的性質を利用して順列対称性を実現し、SHAはハブトークンを介した中継通信で計算量を線形に抑えます。2つのモジュールは互いに補完的で、どちらが欠けても多人数への拡張は難しくなります。

応用範囲は広く、自動運転では複数の車両や歩行者を同時にモデル化する場面、ゲームAIでは多人数対戦のシミュレーション、ロボティクスでは複数ロボットが協調する作業環境などが想定されます。追加学習なしの汎化能力とリアルタイム推論という実用性を備えたこのモデルが、今後どのような規模の環境へ適用されるかが次の注目点です。