- 100万件超のWeb操作データで訓練された初のオープンWeb大規模シミュレータを構築し、30ステップ超の長期シミュレーションに対応
- WebWorld上で合成した軌跡データでQwen3-14Bを学習させると、WebArenaベンチマークで+9.2%改善しGPT-4oに匹敵する性能を達成
- Web以外のコード・GUI・ゲーム環境への汎化も確認され、推論時検索ではGPT-5をワールドモデルとして上回る成果を実現
研究の背景
Webブラウザを自律的に操作できるAIエージェントの開発が注目を集めています。しかし、実際のWebサイト上でエージェントを訓練するには、サーバーへの負荷やプライバシーリスクといった深刻な課題が伴います。誤操作によって意図しない購入や情報漏洩が発生する危険性も無視できません。
こうした問題を回避するために、Webの挙動をシミュレーションする「ワールドモデル」が研究されてきました。ワールドモデルとは、エージェントが行動した結果どのような状態変化が起きるかを予測するモデルのことです。ところが従来の手法では、訓練データがわずか数千件にとどまり、実際のWebの多様性を十分に再現できていませんでした。
本論文では、Qwenチームが開発したWebWorldを紹介します。100万件を超えるWeb操作データで訓練された初の大規模オープンWebシミュレータであり、AIエージェントの訓練基盤として幅広い応用が期待される研究成果となっています。
WebWorldの仕組み
WebWorldは自己回帰型の言語モデルとして構築されています。「現在のWebページの状態」と「エージェントが実行した操作」を入力として受け取り、操作後の「次のWebページの状態」を予測するという仕組みです。Webページの状態はアクセシビリティツリー(ブラウザがUI要素の構造を木構造で表現したもの)として表現され、操作はPythonスタイルの関数呼び出しとして記述されます。

WebWorldの大きな特徴は、3段階の階層的データ収集パイプラインにあります。第1段階では、FineWebやCCI 3.0コーパスから抽出したWebサイトに対してランダムな操作を行い、約29万件の軌跡データを収集しました。第2段階では、LLMエージェントが自ら探索目標を設定し、最大30ステップに及ぶ長期的な操作軌跡を約3.8万件生成しています。第3段階では、ユーザーの意図を想定したタスク指向の操作を約9.4万件収集し、成功した軌跡のみをリジェクションサンプリングで選別しました。
これら3段階を合わせた総データ量は106万件に達し、従来の研究の約100倍という圧倒的な規模を誇ります。さらに、アクセシビリティツリーだけでなくHTML、XML、Markdown、自然言語といった複数フォーマットへの変換も行い、モデルの汎用性を高めています。
WebWorld-Bench:9次元の評価フレームワーク
ワールドモデルの性能を客観的に測定するため、著者らはWebWorld-Benchという包括的な評価フレームワークを構築しました。以下の9つの次元からモデルを多角的に評価する設計になっています。
- 長期一貫性(10ステップ以上の予測精度)
- 基本的な意味理解(マクロな状態遷移の正確性)
- 細粒度の感度(微小な変化への応答精度)
- マルチタブ・マルチページ対応
- マルチフォーマット頑健性(XML、HTML、Markdownなど)
- 自然言語への変換能力
評価指標には2種類が用意されました。Factuality Scoreは操作結果の意味的正確性をLLM審査員が採点するもの、Web Turing Scoreはシミュレーション結果と実際のWeb状態を見分けられるかを対戦形式で測定するものです。WebWorld-32Bは平均Factuality Scoreで71.0%を記録し、Claude-Opus-4.1の71.3%に匹敵する水準に到達しています。
実験結果
WebWorldの実用的な価値は、下流タスクでの性能向上によって示されました。WebWorld上で合成した軌跡データを使ってQwen3-14Bをファインチューニングした結果、WebArenaベンチマークにおいて成功率が15.1%から24.3%へと+9.2ポイント改善されています。特にRedditドメインでは+18.3%、GitLabでは+12.0%と顕著な改善が見られました。

推論時の活用においても興味深い結果が得られています。エージェントが複数の候補行動を提案し、WebWorldで各行動の結果をシミュレーションして最適な行動を選択する「先読み検索」を実装したところ、GPT-5をワールドモデルとして使用した場合で67.5%の成功率を達成しました。ただし著者らは、高度な探索戦略(MCTSなど)の改善幅は限定的だったと報告しており、ワールドモデルの最大の価値は推論時の計画よりも訓練データの合成にあると結論づけています。
モデル | 訓練データ量 | マルチフォーマット | 長期対応 | オープンWeb |
|---|---|---|---|---|
DreamGym-8B | 1.4万件 | × | ○ | × |
WMA-8B | 1.4万件 | × | 単一ステップ | ○ |
WebWorld-32B | 106万件 | ○ | ○ | ○ |
Web以外の環境への汎化
WebWorldはWeb操作データのみで訓練されているにもかかわらず、他の環境でも高い汎化性能を発揮しました。APIサービス、コード開発、ゲーム、GUIデスクトップの4分野で評価した結果、平均+0.224のスコア改善を記録しています。特にGUI環境では+0.383と最も大きな効果が確認されており、Webでの操作経験がデスクトップアプリケーションの操作にも転移することが示唆されました。

まとめと今後の展望
WebWorldは、100万件超のWeb操作データで訓練された初の大規模オープンWebシミュレータとして、AIエージェント研究に大きなインパクトを与える成果です。実際のWebサイトを使わずに安全かつ大量の訓練データを生成できるため、エージェント開発のコストとリスクを大幅に低減できるでしょう。
一方で、著者らは2つの重要な限界も指摘しています。1つ目はおべっかバイアスで、モデルがエージェントの操作に対して楽観的すぎる結果を生成する傾向があり、頑健な方策学習の妨げになる可能性があるという点です。2つ目はコンテンツ品質の問題で、科学論文のような高度なテキスト生成は苦手としています。
今後の発展としては、おべっかバイアスの緩和やシミュレーション品質の向上に加え、マルチモーダル(視覚情報を含む)なワールドモデルへの拡張が期待されます。WebWorldが示した「大規模シミュレーションによるエージェント訓練」というパラダイムは、Web操作に限らず、あらゆるデジタル環境でのAIエージェント開発を加速させる基盤技術となりうるのではないでしょうか。
