Matrix-Game 3.0とは？720p・最大40FPSでリアルタイムを実現するインタラクティブワールドモデル

720p解像度・最大40FPSのリアルタイムインタラクティブ動画生成を5Bパラメータモデルで達成し、分単位の長期一貫性を維持する
Unreal Engine合成データ・AAAゲームデータ・実写映像を統合した大規模学習パイプラインで汎化性を高める設計を採用
Distribution Matching Distillation・INT8量子化・VAEデコーダプルーニングの3段階により、5B規模でのリアルタイム動作を実現した

インタラクティブ動画生成の現状

ゲームのプレイ映像や自動運転シミュレーションのように、ユーザーの操作に応じてリアルタイムで映像を生成する「インタラクティブワールドモデル」は、AIシミュレーション研究の重要なテーマです。現実のゲームエンジンを使わずに、ニューラルネットワークだけでゲームの世界を再現するという試みは、ロボット制御や自律エージェントの研究にも直結します。

しかし、これまでの手法には大きな制約がありました。GameNGENはDOOMのゲームプレイを約20FPSで生成できましたが、解像度は260×160ピクセル程度にとどまっていました。DIAMONDはAtariゲームをニューラルネットワークで再現しましたが、標準的なAtari解像度（84×84ピクセル）という低い水準での動作にとどまっています。Soraのような大規模動画生成モデルが高い推論コストのために実用化に苦慮してきた状況もあり、高解像度かつリアルタイムのインタラクティブ生成は未解決の課題として残っていました。

3つの技術的柱

Matrix-Game 3.0は、この課題に対して「データ基盤の強化」「長期一貫性の学習」「推論効率の最適化」という3つの柱で取り組んでいます。

データ基盤では、Unreal Engineを活用した合成データ、AAAゲームの実際のプレイ映像の大規模自動収集、そして実写映像の拡張という3種類のデータを組み合わせています。合成データで多様なシーンのバリエーションを確保しつつ、実際のゲームデータで現実的な動きのパターンを学習し、実写映像で実世界への汎化性を高める構成です。GTA VやCyberpunk 2077など複数のAAAタイトルが学習に使用されています。

長期一貫性の維持

動画生成モデルの実用上の難題として、長い動画を生成するにつれてシーンの整合性が崩れる問題があります。Matrix-Game 3.0では、予測残差のモデリングと不完全フレームの再注入という手法でこれに対処しています。

モデルが自分自身の予測誤差を学習し、次のフレームを生成する際に過去のミスを補正できるよう訓練します。完璧ではないフレームを意図的に再注入することで、推論時に生じる誤差の蓄積に対してモデルが頑健になります。この設計により、5Bモデルでも分単位の長期シーケンスにわたって安定した映像品質を維持できます。また、2×14Bの混合エキスパート（MoE）構成へのスケールアップでは、生成品質とダイナミックな表現力がさらに向上することも確認されています。

推論高速化の仕組み

720pのリアルタイム生成を実現するため、3つの高速化技術を組み合わせています。

DMDベースの自己回帰蒸留: Distribution Matching Distillation（逆KL発散を最小化する知識蒸留手法）により、少ないステップ数で高品質な生成を実現する
INT8量子化: 注意投影層（Attention Projection Layer）にINT8精度を適用し、FeedForwardやVAEなど精度が重要な層は元の精度を維持する
MG-LightVAE: VAEデコーダの隠れ次元を削減した軽量版。50%プルーニングでデコード時間を0.76秒から0.30秒に短縮（2.6倍高速化）、75%プルーニングでは5.2倍の高速化を実現する

実験結果と性能評価

アブレーション実験では各最適化コンポーネントの貢献が定量的に確認されています。フル構成で約40FPS、INT8量子化を除くと27.38FPS（約12FPS低下）、MG-LightVAEを除くと25.79FPS（約14FPS低下）、GPUカーネル最適化を除くと6.60FPSまで低下します。ハードウェアレベルの最適化が全体性能の大部分を担っていることが分かります。

VAEの品質評価では、50%削減版のMG-LightVAEがPSNR（画質評価指標）31.84、SSIM（構造類似度）0.99という高い画質を維持したまま2.6倍の高速化を達成しています。既存手法との比較では、GameNGENの約20FPSと比べてフレームレートで約2倍、DIAMONDが対象とするAtari解像度（84×84ピクセル）と比べると縦方向で約8倍の解像度での動作を実現しています。

応用分野と今後の展望

Matrix-Game 3.0が想定する応用分野はゲームにとどまりません。ロボットの動作計画・制御、XR（拡張現実・複合現実）上のインタラクティブ体験、産業向けの具身インテリジェンスなど幅広い領域が視野に入っています。高解像度・リアルタイムというスペックは、ゲームや自動運転シミュレーションで求められる水準に近づいており、実用化に向けた足掛かりとなります。

一方で、論文では課題も率直に認識されています。より複雑な物理シミュレーションや長期的な因果関係の表現、ゲーム以外の実世界環境への汎化、そして現実のゲームエンジンとの連携は引き続き研究が必要な領域です。モデル規模と推論コストのトレードオフについても、商用展開を見据えたさらなる検討が求められます。