Microsoft Researchらが提案するMirageは、動画ワールドモデルのメモリをピクセルではなく潜在空間の3D座標に直接持つことで、従来比10.57倍の高速化と55倍のメモリ削減を実現しました。
Dream.exeは8種類の動画生成モデルを101件のロボット操作タスクで評価し、視覚的品質と物理的実行成功率が無相関(r=−0.03)という事実を実証した新評価フレームワークです。
北京大学発の5Bパラメータ動画モデル「LoomVideo」は、MLLMをバックボーンに採用して動画生成と編集を統合。Scale-and-Add条件付けにより類似性能帯モデル比5.41倍の推論高速化を実現しています。
自己回帰動画生成を1ステップに圧縮するAAD-1を解説します。因果的な生成器と双方向識別器の非対称設計で動きの崩壊を克服し、VBenchで既存の4ステップ手法を上回るSOTAを達成しました。
24時間超・130万フレーム以上の動画をリアルタイム生成する初のフレームワーク「Echo-Infinity」を解説。人間の記憶統合に着想した学習可能メモリと改良版RoPEで、短尺・長尺の両タスクでSoTAを達成しました。
DeepSeek V2/V3で注目されたMLA技術をビデオ拡散に初適用した「VideoMLA」を解説します。KVキャッシュを92.7%削減しながら分単位の長尺動画生成を実現し、VBenchで最高スコアを達成しました。
KAISTが提案するWorldKVは、カメラ・行動情報に基づくKVキャッシュの取得と類似度ベースの圧縮により、動画世界モデルのスループットを訓練不要で約2倍に高めながらフルキャッシュ保持と同等の映像品質を維持します。
NVIDIAが発表したLongLive-2.0は、NVFP4(4bit浮動小数点)精度を訓練・推論の全工程に適用した長時間動画生成インフラです。Balanced SPとNVFP4の組み合わせで訓練2.15倍・推論1.84倍の高速化を達成し、5BモデルでFPS45.7のリアルタイム生成を実現しました。
カメラ誘発ワープを「擬似履歴」として既存ビデオモデルに注入し、モデルの重みを変えずにカメラ制御を実現する新手法「Warp-as-History」を解説します。1本の動画でのLoRA学習でカメラ制御スコアを134.7%改善します。
動画VAEのデコーダに参照フレームを直接注入する「RefDecoder」が提案されました。ファインチューニング不要でWan 2.1やVideoVAE+に即座に適用でき、PSNRを最大+2.1dB向上させる新手法を解説します。
自己回帰型動画生成モデルに因果一貫性蒸留を導入し、1〜2ステップの超高速フレーム生成を実現するCausal Forcing++を解説。訓練コスト4倍削減と初回レイテンシ50%削減を達成しつつ、VBench品質スコアで従来手法を上回ります。
NVIDIAが公開したオープンソース世界モデルSANA-WMは、2.6Bパラメータで720p・60秒の動画を単一GPU上で生成します。ハイブリッドアテンションと二重分岐カメラ制御により、より大きな競合モデルと同等以上の映像品質とカメラ追従精度を実現しています。
LLMはなぜ日本文化に偏る? 欧州研究が明かすAIの隠れた文化バイアス
SANA-WMとは?単一GPUで720p・60秒動画を生成するNVIDIAの効率的世界モデル
MolmoAct2とは?GPT-5・Gemini Roboticsを超えたオープンVLAモデルを解説
arXiv、AI任せ論文の著者を1年間投稿禁止へ — 学術AI利用規制が本格化
GitHub Copilot がトークン課金制へ移行、一部ユーザーで月額29ドルが750ドルに急騰