TideGSとは？単一24GB GPUで10億個超の3Dガウスを訓練するアウトオブコア最適化手法

SSD-CPU-GPU階層を活用するアウトオブコア最適化で、単一24GB GPUで10億個超の3Dガウシアン訓練を実現した
軌跡適応型差分ストリーミングによりPCIe転送量を先行手法比4分の1以下に削減し、GPU利用率43%を維持
MatrixCityデータセットで26.1dBのPSNRを達成。先行アウトオブコア手法を1.1dB上回る品質を単一GPUで確認

研究の背景

3D Gaussian Splatting（3DGS）は、複数視点から撮影した画像を基に、空間内に無数の半透明な楕円体（ガウシアンプリミティブ）を配置することで、新しい視点からのリアルな画像を高速に合成できる技術です。新視点合成や3D再構成の分野で急速に普及し、自動運転やメタバースへの応用も期待されています。

しかし3DGSには根本的なメモリの壁が存在します。訓練中は全ガウシアンのパラメータや勾配をGPUのVRAM上に保持する必要があるため、24GBのVRAMを持つGPUでも約1,150万個が上限でした。都市規模のシーン再構成には数億から数十億個のガウシアンが必要とされており、この制約が研究と実用の両面で大きな障壁となっていました。

既存のアウトオブコア（一部データをメモリ外に置く）手法も提案されてきましたが、最大でも約1億個程度にとどまり、I/O転送のオーバーヘッドによる速度低下も課題でした。本研究はこの問題に正面から取り組み、10億個超という桁違いのスケールを単一GPUで実現するフレームワーク「TideGS」を提案しています。ICML 2026のSpotlightに採択された研究です。

図1: TideGSはSSD・CPU・GPUの3階層にガウシアンパラメータを分散格納し、訓練中に軌跡が活性化した作業集合だけをGPU VRAMに展開することで、都市規模シーン学習を単一GPUで可能にします。

3つの中核技術

TideGSは、メモリの壁を突破するために3つの技術を組み合わせています。

ブロック仮想化ジオメトリは、空間的に近いガウシアンをまとめてSSD上に格納する仕組みです。Mortonコード（空間充填曲線の一種）でガウシアンをソートし、4,096個ずつのブロック（約944KiB）に分割してSSDに保存します。各ブロックには包囲球（バウンディングスフィア）が付与されており、CPUがカメラの視野錐台（フラスタム）と照合することで、実際に見えるブロックだけを効率よく選択できます。Morton順序をなくすとキャッシュヒット率が95.2%から42.1%に大幅低下するというアブレーション実験が、この空間局所性設計の重要性を示しています。

階層的非同期パイプラインは、SSD・CPU・GPU間のI/O転送とGPUの演算を時間的に重ね合わせてレイテンシを隠蔽する技術です。CPU側で粗いブロック単位の可視性チェック（6平面フラスタムカリング）を行い、GPU側で細粒度なガウシアン単位のフィルタリングとレンダリング・逆伝播を担当する2段階構成になっています。SSDからの読み込み、CPU-GPU間の転送、GPU演算がすべて非同期で並列実行され、非同期重複をなくすと1イテレーション処理時間が90.7msから210.5msへと約2.3倍に悪化することが確認されています。

軌跡適応型差分ストリーミングは、本フレームワーク名の由来になった中核技術です。訓練中のカメラ軌跡（視点の移動）に着目し、連続するイテレーション間で使用するブロックの集合がどれだけ重複するかを活用します。前のイテレーションで既にGPUにロード済みのブロックはそのまま保持し、新たに必要になったブロックだけをSSDから転送します。この差分のみ転送という方式により、約1億個スケールではPCIe転送量を先行手法CLMの4分の1以下（1イテレーションあたり0.10GB対0.41GB）に抑えることに成功しています。

図2: TideGSのパイプライン全体像。左はSSD・CPU・GPUにまたがる3階層のアウトオブコア構造、右は連続イテレーション間でブロックの重複部分を保持し差分のみを転送する軌跡適応型差分ストリーミングの動作を示します。

実験結果

実験はNVIDIA RTX A5000（24GB VRAM）、256GB CPU RAM、Samsung PM9A3 NVMe SSD（読取速度3.3GB/s）という単一GPU環境で行われました。大規模シーンの評価には都市スケールデータセット「MatrixCity」が使用されています。

品質の面では、TideGSは約11億個（1.1B）のガウシアンで訓練した場合にPSNR 26.1dBを達成しました。先行アウトオブコア手法「CLM」は約1億個でメモリ不足（OOM）が発生してPSNR 25.0dBにとどまっており、TideGSはさらに10倍以上の規模で1.1dBの品質向上を実現しています。標準の3DGSやCLMはより大きなスケールではそもそも動作しません。

速度効率も同等スケール（約1億個）での比較で優れた結果を示しています。TideGSの1イテレーション処理時間は90.7msと、CLMの100.8msより高速で、GPU利用率も43.3%対37.0%とTideGSが上回りました。また、Mip-NeRF 360などの中規模データセットでは、アウトオブコア化によるPSNRの低下は平均0.11dBにとどまり、SSIMやLPIPSはほぼ同等でした。

3Dシーンを編集する観点に興味があれば、テキスト指示でフィードフォワードに3Dシーンを編集するVGGT-Editも参照してください。

図4: MatrixCityデータセットにおけるガウシアン数とPSNRの関係。TideGSのみが10億個超のスケールで動作し、26.1dBという最高品質を達成しています。Native 3DGSとCLMは大きなスケールでOOMになります。

まとめと今後の展望

TideGSは、ブロック仮想化・非同期パイプライン・差分ストリーミングという3技術を統合することで、単一24GB GPUで10億個超の3Dガウシアンを訓練可能にしました。VRAMの制約をソフトウェア設計で克服したアプローチは、高価なマルチGPU環境なしに大規模3D再構成を実現する実用的な道筋を示しています。

一方で論文はいくつかの制約も率直に認めています。カメラ軌跡の連続性が低い撮影条件では差分ストリーミングの効率が落ちること、低速なSATAドライブでは効果が限定的なこと、またGrendel-GSのような多数GPUを用いた分散訓練と比べると実時間では劣ることが挙げられています。

都市規模の3D再構成、自動運転向けシーン生成、大規模な3D環境の構築など、VRAMの壁を超えた3DGS訓練が求められる用途で、今後の応用が広がると考えられます。