Holo-Worldとは？カメラ・物体・天気を1つのモデルで制御するビデオ生成の新手法

1枚の画像からカメラ移動・物体の動き・天気変化の3要素を単一モデルで独立かつ統合的に制御してビデオを生成できる
新データセット「HoloStateData」と制御空間を分離した「Unified Scene Adapter」により、従来は別々にしか扱えなかった制御要素を統合
気象変換ベンチマークで既存手法を上回る性能を示し、コードはGitHubで公開済み

研究の背景

動画生成モデルは近年急速に進歩していますが、「カメラをどう動かすか」「画面内の物体をどう動かすか」「天気をどう変えるか」といった制御を同時に、かつ独立して扱えるシステムはほとんど存在しませんでした。

例えば、映像制作の場面で「晴れの日を雨天に変えながらカメラをゆっくり引いていく」という編集をしたい場合、従来は複数の専用モデルを組み合わせる必要がありました。しかしモデルを連結するとエラーが積み重なり、シーンの一貫性も損なわれがちです。

こうした課題を解決するために、中国科学院などの研究グループが提案したのが「Holo-World」です。2026年6月に公開されたこの研究は、1枚の静止画から出発して、カメラ・物体・気象の3種類の制御を1つのモデル内で扱うことを目指しています。

提案手法の概要

Holo-Worldは大きく3つの技術的要素で構成されています。

図1: Holo-Worldの処理パイプライン。1枚の入力画像から3種類の制御信号を受け取り、単一モデルでビデオを生成する

まずHoloStateDataは、多様な動画を「カメラ・物体・気象」という3つの監督情報を持つ統一フォーマットに変換したデータセットです。このデータセットがあることで、モデルは3種類の制御をまとめて学習できます。

次にUnified Scene Adapter（統合シーンアダプター）は、モデルのパラメータ空間を「元の世界を維持する部分」と「天気を変換する部分」に分けて設計されています。さらに、奥行き情報などの幾何学的な情報（幾何バッファ）やレンダリングされた背景を活用してシーンの構造を保ちながら、物体の動きやカメラワークを正確に再現します。

最後にScene-Weather Decomposed CFG（シーン・天気分解型ガイダンス）は、シーンの整合性と天気効果を別々に強調する推論技術です。通常のガイダンス手法では条件信号を過度に強調してしまい、映像が不自然になることがありますが、この手法はシーンと天気の影響をそれぞれ個別に調整することで、バランスの取れた映像生成を実現します。

実験結果

研究チームは定量・定性の両面で評価を実施しました。気象変換ベンチマークでは、既存の気象編集手法を上回る性能を記録しています。

特に注目すべき点は、カメラ制御・物体制御・気象制御を同時に指定しても、それぞれの制御が独立して機能することです。例えば「右にカメラを回しながら、前景の車を左に動かし、天気を雪に変える」といった複合指示でも、各要素が意図通りに反映された映像が生成されます。

また、単に天気を変換するだけでなく「元の世界をそのまま保持するモード」も用意されており、天気の変化なしにカメラや物体だけを動かす通常の動画生成にも対応しています。世界モデルの文脈では長時間の誤差蓄積が課題となることが多いですが、Holo-Worldは幾何情報を活用することでシーン構造の崩壊を抑えています。

まとめと今後の展望

Holo-Worldは、これまで別々のモデルに委ねていたカメラ・物体・天気の制御を1つのフレームワークに統合した点で実用上の意義があります。映像編集の現場では、複数ツールの組み合わせに伴う手間と品質の劣化が長年の課題でしたが、統合制御によってそのハードルを下げられる可能性があります。

一方で、現時点では3種類の制御要素に絞られており、照明変化や季節の遷移など、より細かい物理現象への対応は今後の課題です。また、HoloStateDataのデータ収集・アノテーションにかかるコストも、スケールアップ時の制約になり得ます。コードはGitHub（XiangchenYin/Holo-World）で公開されており、再現性の確認や応用研究への展開が期待されます。