HY-World 2.0とは？テキスト・画像・動画から3D世界を生成するマルチモーダルワールドモデル

テキスト・単一画像・複数画像・動画など多様な入力から探索可能な3D Gaussian Splattingシーンを生成する統合ワールドモデル
HY-Pano 2.0・WorldNav・WorldStereo 2.0・WorldMirror 2.0・WorldLensの5モジュールが連携して3D世界を構築
オープンソースでありながらクローズドソースモデルMarbleと同等水準の性能を達成し、全コードとモデル重みをGitHubで公開済み

研究の背景と前世代からの進化

自律ロボットやゲームエンジン、VR/ARの分野では、現実世界をデジタル空間に再現する「ワールドモデル」への関心が高まっています。従来の動画生成モデルはピクセルの列として映像を出力するにとどまり、3D空間での物体操作・任意視点への移動・物理シミュレーションといった操作には根本的な制約がありました。Tencent HunyuanチームはHY-World 1.0でもピクセルレベルの動画生成を中心に据えており、編集可能な3D表現を直接扱う機能を持っていませんでした。

HY-World 2.0はこの課題を解決するため、根本的なアプローチを転換しました。ピクセル単位の動画生成から編集可能な永続的3Dアセットの直接生成へと舵を切り、3D Gaussian Splatting（3DGS）と呼ばれる点群ベースの3D表現形式を採用しています。3DGSは各点が色・透明度・形状情報を保持する表現形式で、リアルタイムレンダリングや物理エンジンとの接続が容易です。この方針転換により、前バージョンと比較して3D一貫性・リアルタイムレンダリング適性・物理エンジン互換性が大きく向上しました。

5つのモジュールの役割と構成

HY-World 2.0はテキストプロンプト・単一画像・複数画像・動画という4種類の入力に対応しています。入力を受け取った後、5つの専門モジュールが順次連携して最終的な探索可能な3DGSシーンを構築するパイプラインを形成します。

図1: HY-World 2.0の全体パイプライン。4種類の入力が5モジュールを経て探索可能な3DGSシーンへと変換されます

HY-Pano 2.0はテキストや画像から360度の全天球パノラマを生成するモジュールです。生成されたパノラマは3D世界全体の空間的な出発点を形成し、次モジュールのWorldNavが行う経路計画の素材となります。WorldNavはパノラマ情報をもとに3D空間内の移動軌跡を計画するモジュールで、自律ロボットのナビゲーション経路設計や仮想空間の探索シナリオ生成への活用が想定されています。

WorldStereo 2.0は計画済みの軌跡に沿ってキーフレーム画像を連続生成するモジュールです。2種類のメモリ機構を搭載しており、具体的にはシーン全体の幾何構造を管理するグローバル幾何メモリ（GGM）と、フレーム間の空間的整合性を維持する空間ステレオメモリ（SSM++）です。これらの機構が連携することで、長距離移動時の視点一貫性を高めています。またキーフレームを潜在空間上で表現することで高周波詳細の損失を抑制し、生成速度も向上しています。

WorldMirror 2.0はマルチビュー画像や動画から3D世界を再構成するフィードフォワードモデルです。正規化された位置エンコーディングにより解像度が異なる入力への推論も可能で、深度正規化教師損失と深度マスク予測ヘッドを組み合わせて無効ピクセルを堅牢に処理します。WorldLensは最終的な3DGSシーンを高品質でレンダリングするプラットフォームで、自動照明推定（IBL：Image-Based Lighting）や効率的な衝突検出機能を内蔵しており、ゲームエンジンやVR/AR環境への組み込みを意識した設計です。

実験結果と性能評価

複数の公開ベンチマークで定量評価を実施しました。WorldStereo 2.0のカメラ制御精度はRealEstate10Kデータセットで絶対軌跡誤差（ATE）1.768、回転誤差0.492、並進誤差0.968を達成しています。視覚品質指標のCLIP-IQA+は0.544で、知覚的類似度指標であるLPIPS（Learned Perceptual Image Patch Similarity）を含む複数の指標において既存オープンソース手法を上回りました。

WorldMirror 2.0の3D再構成精度は7-Scenesベンチマークで精度0.012・完全性0.016、NRGBDベンチマークで精度0.015・完全性0.016、DTUデータセットで精度0.554・完全性0.771を記録しています。全モジュールを統合した総合評価では、クローズドソースモデルMarbleと同等水準の性能をオープンソースとして達成しており、コードとモデル重みはGitHubで公開済みです。一方で、各モジュールが独立して学習される設計上、モジュール間のエンドツーエンドな最適化は今後の課題として残っています。

まとめ

HY-World 2.0は、ピクセル動画生成から3D空間の直接構築へとワールドモデルの方向性を刷新した研究です。前世代と比較してリアルタイムレンダリング適性と物理エンジン互換性が大幅に向上し、Matrix-Game 3.0などのリアルタイム指向ワールドモデルと並んでこの分野を牽引する成果です。自律ロボット訓練のための仮想環境構築、手続き的ゲームコンテンツの生成、VR/AR向け素材制作など幅広い実用的な展開が期待されます。全コードとモデル重みがオープンソースで公開されており、研究コミュニティでの継続的な発展も見込まれます。