ワールドモデルの幻覚は予測できる？MMBench2と3種の失敗モードを解説

65,600軌跡・427時間・23Mフレームの大規模データセット「MMBench2」を新構築し、視覚的ワールドモデルの幻覚を3種類のモードに初めて体系化した
ラベル不要な3つの予測指標がスピアマン相関ρ≈0.80で幻覚を事前検知でき、実世界での幻覚発生を効率的に予測可能にした
カバレッジ認識サンプリングによるPSNR +0.88 dBの改善と、わずか50軌跡で未知環境のMPCスコアが人間収集データの約90%に達することを実証した

研究の背景

強化学習（Reinforcement Learning）において、エージェントが実際の環境と相互作用せずに将来の状態を予測する「ワールドモデル」は、ロボット制御や自律エージェントの開発効率を大幅に高める技術です。現実の物理環境で何千回も試行を繰り返すコストを避けながら、モデル内でシミュレーションして学習できる点が大きな利点です。

しかし、ワールドモデルには「幻覚（Hallucination）」という深刻な課題があります。視覚的には滑らかで自然に見える映像を生成しながら、実際の物理法則やエージェントの行動から大きく乖離した予測を出力してしまう現象です。訓練データで十分に網羅されていない状態（低カバレッジ領域）に入ると、この問題が特に顕著になります。

言語モデルの幻覚は近年盛んに研究されてきましたが、視覚的なワールドモデルにおける幻覚を体系的に分類・定量化した研究はこれまで存在しませんでした。Nicklas Hansenらのチームは、この空白を埋めるため、大規模ベンチマークの構築から幻覚の予測・防止手法の開発まで、一貫したフレームワークを提案しました。

MMBench2データセット

図1: MMBench2の210タスクからサンプリングした36タスクの観測フレーム。Atariゲームから物理操作まで視覚的・形態的に多様なタスクで構成される

研究の土台となる「MMBench2」は、視覚的ワールドモデルの評価・訓練に特化した大規模データセットです。Atari、MuJoCo、ポイント迷路など10種類のドメインにわたる210タスクを収録し、65,600軌跡・23Mフレーム・合計427時間という規模を誇ります。すべての観測は224×224ピクセルのRGB動画として記録されており、正解となる行動とリワード情報も含まれています。

図2: タスク別フレーム数の分布。上位20タスクが全フレームの26%を占める重尾分布で、Atariドメインが支配的

データ分布は重尾型（特定のタスクにフレームが偏る形状）であり、上位20タスクが全フレームの26%を占める一方、下位20タスクはわずか0.7%にとどまります。この不均一な分布が、後述するカバレッジ認識サンプリングの動機になっています。

3種類の幻覚モード

研究チームは、ワールドモデルが引き起こす幻覚を以下の3種類に分類しました。

知覚型幻覚: エンコーダとデコーダが未見のシーン構造を扱えず、訓練データに近い既知のパターンへ強制的に変換してしまう失敗
行動周辺化型幻覚: ダイナミクスモデルが入力行動に鈍感になり、どの行動を与えても視覚的には自然に見えるが実際には制御不能な映像を生成する失敗
シーン発散型幻覚: 多ステップの先読み予測（ロールアウト）を繰り返すうちに誤差が累積し、オブジェクトがテレポートするなど物理的にあり得ない現象が発生する失敗

3種類はそれぞれ異なる原因を持ちますが、いずれも訓練データのカバレッジが薄い状態空間の周辺部で集中して発生するという共通点が確認されました。

幻覚を事前に予測する3指標

図4: 3つの予測指標と実際のロールアウト誤差の相関。9万9,000件のシーケンスにわたりスピアマン相関ρ≈0.80を達成

研究チームは、実際に幻覚が起きる前に予測するためのラベルなし指標を3つ開発しました。

トークナイザ再現残差（u_r）: 映像をエンコードしてデコードしたときの差異を計測し、知覚型幻覚の予兆を検知する
フロー不安定性（u_f）: 拡散モデルのノイズ除去サブステップ間での予測のばらつきを測定し、行動周辺化型の予兆を検知する
シード間分散（u_s）: 複数のノイズ系列にわたる予測のばらつきを測定し、シーン発散型の予兆を検知する

これらの指標とロールアウト誤差を比較したところ、スピアマン相関ρ≈0.80という高い一致度が得られました。スピアマン相関とは2つの指標のランク順位がどれだけ一致するかを示す係数で、1.0に近いほど相関が強いことを意味します。ラベルなしで幻覚を事前に検知できることは、実システムへの組み込みで大きな利点となります。

幻覚を防ぐ2つのアプローチ

開発した予測シグナルは、防止にもそのまま活用できます。研究チームは2つの方向から幻覚の緩和を実証しました。

1つ目はカバレッジ認識サンプリングです。トークナイザ再現残差が高い（幻覚が起きやすい）領域のデータを優先的に訓練へ使うよう、既存コーパスの重み付けを調整します。この手法により、動画の画質精度を示す指標であるPSNR（予測映像が実際の映像にどれだけ近いかを表す値で、高いほど精度が高い）が+0.88 dB改善されました。行動への感応性も+0.29向上し、行動周辺化型幻覚の抑制にも効果がありました。

2つ目は好奇心ベースのオンラインデータ収集です。幻覚予測指標をもとにエージェントが探索すべき未踏領域を選び、そこで収集したデータでモデルをファインチューニングします。未知の環境に対してわずか50軌跡のデータを追加するだけで、正規化MPCスコアが0.325に達しました。これは人間がインタラクティブにプレイして収集したデータ（0.362）の約90%に相当する水準です。

Qwen-AgentWorldのようにLLMを環境シミュレーターとして活用する研究も注目を集めていますが、本研究が示すように幻覚の品質を保証する仕組みはワールドモデル全般に共通する課題です。

まとめと今後の展望

本研究は、視覚的ワールドモデルにおける幻覚を初めて体系的に定義・定量化したもので、コード・MMBench2データセット・学習済みモデルがすべて公開されています。3種類の幻覚モードと3つの予測指標、そして2種類の防止手法という明確な枠組みは、ロボット制御や自律エージェントの信頼性向上において実践的な基盤を提供します。

今後の課題としては、より大規模なモデルへの適用、3Dシーンや長時間予測への拡張、実際のロボットハードウェア上での動作検証が挙げられます。幻覚が「データカバレッジの問題として対処可能」と位置づけられたことで、ワールドモデルを実環境へ展開するための研究が加速することが期待されます。