FLATとは？動画拡散モデルの潜在空間から幾何精度の高い3Dシーンを生成する新手法

動画拡散モデルの潜在空間から三角形スプラット（Triangle Splat）を直接デコードし、幾何精度（コサイン類似度0.853）でGaussianベースラインを大幅に上回る
レイ中心の回転パラメタリゼーションとプロダクトウィンドウ関数で勾配フローを改善し、フィードフォワード3Dシーン生成の学習を安定させる
単一画像からゲームエンジン対応の不透明三角形メッシュを出力でき、3DGS・2DGS・三角形スプラッティングを同条件で初めて体系的に比較

研究の背景

3Dシーン生成の分野では近年、拡散モデルを使って単一画像から新しい視点の映像を合成する研究が盛んになっています。しかし多くの手法は出力表現として「3Dガウシアン（3D Gaussian Splatting、3DGS）」を採用しており、これはボリューム（体積）ベースの表現のため明確な表面を持ちません。ゲームエンジンや標準的なグラフィックスパイプラインとの相性が悪く、シミュレーション用途では扱いにくいという課題がありました。

Googleとオックスフォード大学の共同研究チーム（Tombari・Manhardt ら）が発表したFLAT（Feedforward Latent Triangle Splatting）は、この問題に正面から取り組んだ手法です。動画拡散モデルの潜在空間から「三角形スプラット（Triangle Splat）」と呼ばれる三角形プリミティブを直接デコードし、幾何精度の高い3Dシーンをワンパスで生成します。

図1: FLATの概要。動画拡散モデルの潜在空間から三角形スプラットを直接デコードし、幾何精度の高い3Dシーンを生成する

FLATのパイプライン

FLATは次の手順で動作します。まず入力画像から点群（ポイントクラウド）を推定し、目標カメラ軌道に沿ってレンダリングした「制御ビデオ」を構築します。この制御ビデオとカメラ埋め込みを条件として凍結された動画拡散モデル（Wan-2.1ベース）を駆動し、ノイズ除去された潜在特徴を得ます。最後に「シーンデコーダ」がその潜在特徴とカメラ情報を融合して三角形スプラットのパラメータを出力する構成です。

「シーンデコーダ」は標準的なRGBデコーダのバックボーンを流用しつつ、カメラ条件付けのゼロ畳み込みブロックを挿入した構造です。VAEエンコーダが時間方向に4倍・空間方向に8倍の圧縮を行った潜在特徴を入力とし、各デコーダトークンが画像上の2×2ピクセル領域に対応する三角形パラメータを予測します。RGBではなく三角形プリミティブのパラメータを直接出力する点が、従来の手法との最も大きな違いです。

2つの核心技術

FLATが幾何精度を実現する鍵は、「レイ中心の回転パラメタリゼーション」と「プロダクトウィンドウ関数」の2つにあります。

レイ中心の回転パラメタリゼーションでは、各三角形の頂点位置をカメラ光線（レイ）に沿った深度値と2D形状で表現します。形状は特定の数学的変換（コレスキー分解をベースにした下三角行列）を用いて正しい形の三角形のみを生成するよう制約されており、頂点座標を直接回帰するよりも学習が安定します。

図3: ウィンドウ関数の比較。FLATのプロダクトウィンドウ関数は三角形境界の外側にも影響を及ぼし、3頂点すべてへの勾配経路を確保することで学習を安定させる

プロダクトウィンドウ関数は、微分可能な三角形レンダリングにおける勾配フローを改善する仕組みです。従来のシグモイドベースの関数では三角形の境界付近でのみ勾配が伝わりましたが、FLATの関数は境界の外側にも影響範囲を拡張し、3つの頂点すべてに勾配を届けます。これにより三角形の向きに対する学習の感度が大幅に改善されます。

実験結果

PSNR（画像品質の高さを示す指標で、値が高いほど品質が良い）をはじめとする複数の指標で、FLATの性能を既存手法と比較しました。室内シーンデータセット「RealEstate10K」では、FLAT（三角形版）はPSNR 21.45、幾何品質（コサイン類似度）0.853 を達成しています。比較ベースラインのLyra（PSNR 21.79）と視覚品質は同水準を維持しつつ、幾何精度で大きく上回りました。Wonderland（3DGSベース、PSNR 17.15）に対してはPSNR・幾何精度の両面で優位です。

図4: 幾何品質の比較。三角形モデルはGaussian表現に比べて細かく正確なジオメトリを生成し、レンダリング忠実度も維持している

同一アーキテクチャで3種類の表現を比較した分析も行われています。3DGS版がPSNR 22.39で視覚品質は最高となった一方、三角形版は幾何精度（コサイン類似度0.853）で他を圧倒しました。2DGS版はその中間（コサイン類似度0.587）に位置します。また三角形スプラットからゲームエンジン互換のメッシュに変換した場合のPSNRは、3DGSから変換した場合より7dB以上高く、実用性の高さが確認されています。

パイプラインの柔軟性

FLATのシーンデコーダは動画拡散モデルの潜在空間を入力とするため、Holo-Worldのようなカメラ制御を組み込んだビデオ生成モデルと同様に、様々な拡散モデルのバリアントに取り付けることができます。Wan-2.1ファミリーは画像から動画（i2v）、テキストから動画（t2v）、動画から動画（v2v）など複数のパイプラインで同じ潜在空間を共有しているため、シーンデコーダを一度学習すれば全バリアントで再利用できる点が強みです。

ゲームエンジン対応メッシュへの変換

FLATの出力は半透明の三角形スプラットですが、軽量な最適化ステップを経ることでゲームエンジン互換の不透明メッシュに変換できます。幾何的に正確な初期予測があるため変換処理が簡略化でき、ハイパーパラメータの調整も最小限で済みます。変換後のメッシュはUnreal Engine・Unity・WebGLなど任意のレンダリングエンジンで高解像度・高フレームレートのリアルタイムレンダリングが可能です。

図6: 不透明メッシュへの変換。上段が予測された半透明三角形スプラット、下段が変換後のゲームエンジン対応の不透明メッシュ。幾何精度の高い初期予測が変換を容易にする

限界と今後の課題

FLATにも課題があります。細く伸びた表面（木の枝など）、微小な細部、鏡のような反射材質は現状の三角形スプラットでは表現が難しく、失敗例として報告されています。また、PSNRで見た視覚品質ではGaussianベース手法に及ばない場面があります。その理由として、三角形が鮮明なディテールを生成する一方でガウシアンのようにPSNRを滑らかに最大化しにくい特性が挙げられており、指標が必ずしも知覚品質を反映しない点も指摘されています。

まとめ

FLATは、動画拡散モデルの潜在空間から三角形プリミティブを直接デコードするアプローチで、フィードフォワード3Dシーン生成の幾何精度を大幅に向上させました。レイ中心の回転パラメタリゼーションとプロダクトウィンドウ関数という2つの工夫が安定した学習を支え、ゲームエンジン対応メッシュへの変換にも道を開いています。

3DGS・2DGS・三角形スプラッティングを同一条件で比較した分析は、今後の3Dシーン生成研究における重要な参照点となるでしょう。視覚品質と幾何精度のどちらを優先するかは用途によって異なりますが、FLATはゲームやシミュレーションなど明確な表面が必要な応用に向けた有力な基盤技術として注目されます。