UniVidXとは？動画・アルベド・法線・RGBAを1モデルで統一生成する新手法

Stochastic Condition Masking・Decoupled Gated LoRA・Cross-Modal Self-Attentionの3技術で、動画・アルベド・法線・RGBAを単一フレームワークで統一的に生成するUniVidXをSIGGRAPH 2026に発表
1,000本未満の小規模データセットで訓練しながら、多くのタスクで既存の専用モデルと同等以上の性能を達成し、高いデータ効率を実証
テキストからの固有情報生成・逆レンダリング・動画リライティング・動画マッティングなど多彩なタスクを1つのモデルで対応

研究の背景と課題

動画生成の分野では近年、拡散モデル（Diffusion Model）を基盤とした技術が急速に発展しています。しかし、動画の視覚情報を構成するアルベド（物体固有の反射率・色）、法線マップ（表面の向き情報）、照度マップ、RGBAレイヤーといった多様なモダリティを扱うには、これまでタスクごとに専用モデルを個別に訓練する必要がありました。

このアプローチには根本的な問題があります。モデルの開発・維持コストが高く、異なるモダリティ間の整合性を保つことが難しいのです。また各タスクに大量の学習データが必要となるため、実用的なシステム構築のハードルも高くなります。

Hong Kong University of Science and TechnologyとHuawei Noah's Ark Labの研究チームは、この課題に対して「単一フレームワークで多様なタスクをまとめて解決する」という方針でUniVidXを開発しました。Video Diffusion Model（VDM）の事前学習済み知識を活用することで、小規模データでも高い汎化性能を実現しています。

UniVidXの全体設計

図1: UniVidXの全体像。テキスト→X、X→X、テキスト&X→Xの3種類の生成パラダイムをサポートし、UniVid-Intrinsic（上段）とUniVid-Alpha（下段）の2モデルとして具体化される

UniVidXは2つのモデルとして実体化されます。UniVid-IntrinsicはRGB動画とアルベド・照度・法線マップを同時に扱い、テキストからの固有情報生成・逆レンダリング・動画リライティングを実現します。一方、UniVid-AlphaはRGBAの各レイヤー（前景・背景・アルファマット）を統一的に処理し、テキストからのRGBA生成・動画マッティング・動画インペインティングを可能にします。

フレームワークの設計思想は、テキスト→X（テキストから各モダリティを生成）、X→X（あるモダリティから別のモダリティへ変換）、テキスト&X→X（テキストと一部モダリティを条件に残りを生成）という3種の生成パラダイムをすべて統一的に扱う点にあります。

3つのコア技術

図2: UniVidXのアーキテクチャ。SCMがモダリティをランダムに条件とターゲットに割り当て、DGLがターゲットモダリティのみLoRAを活性化し、CMSAがモダリティ間の整合性を確保する

UniVidXを支える技術の核心は3つです。

まずStochastic Condition Masking（SCM）は、訓練時に各モダリティをランダムに「クリーンな条件」か「ノイズが加わったターゲット」に振り分ける仕組みです。固定的なマッピングではなく確率的な割り当てを使うことで、モデルはあらゆるモダリティの組み合わせを条件・ターゲットとして扱う全方向的な生成能力を獲得します。これが少ないデータでも高い汎化力につながっています。

次にDecoupled Gated LoRA（DGL）は、モダリティごとに独立したLoRA（Low-Rank Adaptation、少数のパラメータで大規模モデルを効率的に調整する手法）を割り当て、そのモダリティがターゲットのときだけ活性化します。条件として入力されるモダリティのLoRAは無効化されるため、VDMの強力な事前学習済み知識を損なうことなくマルチモーダル生成へ適応できます。

最後にCross-Modal Self-Attention（CMSA）は、モダリティ間の構造的整合性を担保するAttention機構（入力の重要な部分に注目する仕組み）です。モダリティ固有のQueryを使いながら、KeyとValueはモダリティ間で共有します。これにより、生成されたRGB・アルベド・法線マップが互いを参照しながら構造的に一致するよう制約をかけます。

実験結果

図3: テキストからの固有情報生成の比較。IntrinsiXは赤枠で示すようにアーティファクトとモダリティ間のズレが目立つが、UniVid-Intrinsicは時間的に一貫したRGB・アルベド・法線マップを高精度で生成する

テキストからの固有情報生成タスクでは、既存のIntrinsiXと比較してアーティファクトが大幅に低減し、RGB・アルベド・法線マップ間の整合性も高い結果が得られています。特に猫の毛並みのような複雑なテクスチャや細かなジオメトリの表現において優位性が確認されています。

逆レンダリング（入力RGB動画からアルベド・照度・法線を推定するタスク）では、アルベド推定・照度推定・法線推定・順レンダリングの全指標で既存手法を上回る結果が報告されています。Sapiens2のような法線推定に特化した基盤モデルと異なり、UniVidXは単一モデルで法線・アルベド・マッティングをすべてカバーする汎用性を持ちます。

動画マッティングでも、競合手法が示す背景へのにじみ出しや輪郭のアーティファクトが抑制されています。そして最も重要なデータ効率の観点では、1,000本未満の動画で訓練されたにもかかわらず、多くのタスクで専用モデルに匹敵する性能が確認されています。これはVDMの事前学習済み知識を保持したまま適応するUniVidXの設計が有効に機能した結果です。

アブレーション研究

論文では3つのコア技術の貢献を検証するアブレーション実験も詳細に報告されています。DGLの分離設計を省いて共有パラメータを使うと、異なるモダリティが互いを汚染し合い安定した生成が困難になります。ゲーティング機構を取り除くと法線推定の精度が低下し、テクスチャが失われます。CMSAを通常のSelf-Attentionに置き換えると、RGB・アルベド・照度・法線間の構造的整合性が崩れます。

また、チャンネル結合でモダリティを統合するアプローチとの比較では、チャンネル結合がVDMの事前学習知識を破壊して出力を劣化させるのに対し、UniVidXは高品質な結果を安定して維持しています。

応用例

UniVidXの設計は幅広い応用を可能にします。UniVid-Intrinsicを使った動画リライティングでは、まず逆レンダリングでアルベドと法線を抽出し、目標となるテキストプロンプトを条件にリライトされた動画と照度マップを生成する2段階パイプラインが実現します。テキスト駆動の動画テクスチャ変換では、生成した法線・照度を固定したままターゲットプロンプトでRGBとアルベドだけを再合成することで、シーンの幾何構造と照明を維持しながら表面の外観を変更できます。

UniVid-Alphaを使った動画インペインティングでは、入力動画をアルファマットと背景に分解し、テキストプロンプトで前景の外観を制御した新しい動画を合成できます。背景・前景の置き換えも同様のパイプラインで実現可能です。

まとめ

UniVidXは、SCM・DGL・CMSAの3技術を組み合わせることで、従来はタスクごとに専用モデルが必要だった動画の固有情報生成とRGBA分解を単一フレームワークで統一的に扱うことを実現しました。VDMの事前学習知識を保持しながら少量のデータで高い汎化性能を示した点は、実用的なシステム構築において意味のある利点です。

現在の限界として、透明なガラス表面での法線推定の不安定性や、半透明物体のアルファマット生成における値の飽和が報告されています。これらの課題は今後の研究で取り組まれる見通しです。コードはGitHubで公開されており、再現性の高い研究として関連分野への波及が期待されます。