Heliosとは？KV-cacheなしで19.5 FPS達成するリアルタイム長時間動画生成モデル

KV-cache・sparse attention・量子化などの標準的な高速化技術を一切使わずに、単一NVIDIA H100 GPUで19.5 FPSのリアルタイム動画生成を実現した14B自己回帰拡散モデル
独自のコンテキスト圧縮とサンプリングステップ削減により、論文によれば1.3B規模の小型動画生成モデルと同等かそれ以下の計算コストで14B推論を達成
長時間動画生成特有のdrifting問題（映像品質の漸進的な劣化・繰り返しモーション）をトレーニング戦略によって根本的に解決

研究の背景と課題

動画生成AIは近年、モデルの大規模化とともに生成品質が飛躍的に向上しています。しかしその代償として、推論速度の低下とメモリ消費量の増大が深刻な課題となってきました。14Bパラメータ規模のモデルをリアルタイムで動かすためには、KV-cache（過去のKey-Value行列を再利用してAttention計算を省略する技術）やsparse attention（注目範囲を絞り込むAttention機構）、量子化といった高速化手法を組み合わせるのが一般的な手段でした。

もう一つの難題が、「drifting（ドリフティング）」と呼ばれる現象です。フレームを順次生成していく自己回帰型のモデルでは、生成済みフレームの誤差が後続フレームに伝播し、映像品質が徐々に劣化したり、同じモーションが繰り返されたりします。既存研究はself-forcingyerror-bank、キーフレームサンプリングといったヒューリスティックな手法で対処してきましたが、根本的な解決には至っていませんでした。Heliosはこの2つの課題に対して、標準的なアプローチとは異なる独自の戦略で挑んでいます。

Heliosのアーキテクチャ

図1: Heliosの全体アーキテクチャ。T2V・I2V・V2Vを統一表現で処理し、圧縮されたコンテキストを活用してリアルタイム推論を実現する

Heliosは14Bパラメータの自己回帰拡散モデル（Autoregressive Diffusion Model）として設計されています。テキストから動画を生成するT2V、画像から動画を生成するI2V、動画から動画を変換するV2Vの3タスクを、統一された入力表現でネイティブにサポートする点が特徴です。タスクの切り替えに際して別途ファインチューニングは不要で、単一のモデルが多様な生成タスクに対応します。

トレーニング面でも注目すべき特徴があります。論文のAbstractによれば、モデル並列化やシャーディングフレームワークを使わないトレーニングを実現し、インフラレベルの最適化によって80GBのGPUメモリ内に最大4つの14Bモデルインスタンスを収めることができるとされています。これは推論・トレーニング両面でのメモリ消費量削減に関する独自の最適化によって達成されているとのことです。

リアルタイム生成を可能にした仕組み

Heliosが高速化を実現した核心は、KV-cacheなどの標準的な手法に頼らず、計算量そのものを削減する2つの独自アプローチにあります。

第1のアプローチは、履歴コンテキストとノイズコンテキストの積極的な圧縮です。自己回帰型の動画生成では、過去フレームの情報（履歴コンテキスト）と現在生成中のノイズコンテキストの両方をAttention機構で処理する必要があります。Heliosはこれらを大幅に圧縮し、処理するトークン数を削減することで計算量を抑えています。

第2のアプローチは、拡散モデルのサンプリングステップ数の削減です。拡散モデルは通常、ノイズを徐々に除去するために多数のステップを踏みますが、Heliosはこのステップ数を大幅に減らすよう設計されています。論文によれば、これら2つの工夫の組み合わせにより、14Bモデルでありながら1.3B規模の小型動画生成モデルと同等かそれ以下の計算コストを実現しているとされています。この自己回帰拡散モデルの効率化という方向性は、拡散言語モデルの並列デコード問題を解決するNAP法などの研究とも共鳴する問題意識を持っています。

Drifting問題への対策

図2: 従来手法とHeliosにおける長時間動画生成の品質比較。トレーニング時にドリフティングをシミュレートすることで、長時間生成でも安定した品質を維持する

長時間動画生成における難題であるdrifting問題に対し、Heliosの研究チームはまず典型的な失敗パターンを体系的に分類・分析しました。そこから導き出された戦略が、トレーニング中にドリフティングを意図的にシミュレートするというアプローチです。

具体的には、誤差が蓄積された状態のフレームデータをトレーニングに組み込むことで、モデルが劣化した入力に対してもロバストに振る舞えるよう学習させます。また、繰り返しモーションについては発生源を特定して根本から排除する設計としており、self-forcingやerror-bankといった事後的なヒューリスティックに頼ることなく問題を解決しているのが大きな違いです。

実験結果と今後の展望

論文では短時間・長時間の両動画生成タスクにおいて、Heliosが従来手法を一貫して上回る結果を示しています。単一NVIDIA H100 GPU上で19.5 FPSというリアルタイム生成速度を実現しながら、強力なベースラインと同等の映像品質を維持していることが確認されています。T2V・I2V・V2Vの3タスクにわたってこの性能を発揮する点も、実用上の強みです。

研究チームはコード・ベースモデル・蒸留モデルの公開を予定しており、プロジェクトページ（pku-yuangroup.github.io/Helios-Page）でも情報が公開されています。標準的な高速化技術に頼らずコンテキスト圧縮とトレーニング戦略の工夫のみでリアルタイム動画生成を達成したHeliosの手法は、今後の大規模動画生成モデルの設計に新たな視点を提供するものとして注目されます。