カメラ誘発ワープを「擬似履歴」として既存ビデオモデルに注入し、モデルの重みを変えずにカメラ制御を実現する新手法「Warp-as-History」を解説します。1本の動画でのLoRA学習でカメラ制御スコアを134.7%改善します。
動画VAEのデコーダに参照フレームを直接注入する「RefDecoder」が提案されました。ファインチューニング不要でWan 2.1やVideoVAE+に即座に適用でき、PSNRを最大+2.1dB向上させる新手法を解説します。
自己回帰型動画生成モデルに因果一貫性蒸留を導入し、1〜2ステップの超高速フレーム生成を実現するCausal Forcing++を解説。訓練コスト4倍削減と初回レイテンシ50%削減を達成しつつ、VBench品質スコアで従来手法を上回ります。
NVIDIAが公開したオープンソース世界モデルSANA-WMは、2.6Bパラメータで720p・60秒の動画を単一GPU上で生成します。ハイブリッドアテンションと二重分岐カメラ制御により、より大きな競合モデルと同等以上の映像品質とカメラ追従精度を実現しています。
NVIDIAが提案するAnyFlowは、ステップ増加で品質が低下するConsistency Distillationの問題を解消した初の任意ステップ動画蒸留フレームワークです。1.3Bから14Bパラメータのモデルでテスト時スケーリングを実証しました。
SwiftI2Vは2段階フレームワークとCSG(セグメント単位生成)を組み合わせ、2K解像度のImage-to-Video生成においてGPU処理時間を202倍削減しながらVBench-I2Vで最高スコアを達成した新手法です。RTX 4090でも実用的な運用が可能です。
自己回帰型ストリーミング動画拡散モデルの蒸留フレームワーク「Stream-R1」を解説。ロールアウト単位の信頼性と空間・時間的複雑度を単一の報酬モデルで制御し、全ベンチマーク指標で品質を向上させます。
動画・アルベド・法線・RGBAを単一モデルで統一生成するフレームワーク「UniVidX」をSIGGRAPH 2026に発表。1,000本未満のデータで既存SOTAと同等以上の性能を達成しています。
CVPR 2026採択のVista4Dは、4Dポイントクラウドを活用して動画を任意の視点・カメラ軌跡から再合成するフレームワークです。深度推定誤差や外観保存の失敗という従来課題を、静的ピクセル永続性と多視点動的データ学習で解決します。
Matrix-Game 3.0は、Unreal Engineとゲームデータを活用した大規模学習と3段階の推論最適化により、720p・最大40FPSのリアルタイムインタラクティブ動画生成を実現した世界モデルです。ゲームや自動運転分野への実用化が注目されます。
Netflixが開発したVOIDは、動画から物体を削除する際に衝突・接触などの物理的インタラクションの因果連鎖ごと除去する手法です。
自己回帰型動画拡散モデルのKVキャッシュ爆発問題を解決するPackForcing。5秒クリップの学習から120秒(2分)の動画をH200単一GPU上で生成し、VBench Dynamic Degree 56.25を達成しています。
LLMはなぜ日本文化に偏る? 欧州研究が明かすAIの隠れた文化バイアス
MolmoAct2とは?GPT-5・Gemini Roboticsを超えたオープンVLAモデルを解説
GitHub Copilot がトークン課金制へ移行、一部ユーザーで月額29ドルが750ドルに急騰
arXiv、AI任せ論文の著者を1年間投稿禁止へ — 学術AI利用規制が本格化
Absolicsのガラス基板とは?AIチップ性能を10倍高密度化する次世代パッケージング