AI-Papers

AI最前線コラム

AI-PapersAI論文解説・ニュースブログ

検索運営者情報お問い合わせプライバシーポリシー利用規約

動画の記事一覧 | AI-Papers

ホーム
論文解説
動画

動画

論文解説動画

Holo-Worldとは？カメラ・物体・天気を1つのモデルで制御するビデオ生成の新手法

1枚の画像からカメラ移動・物体の動き・天気変化を単一モデルで独立制御してビデオを生成する「Holo-World」を解説。新データセットと統合アダプターにより、従来は困難だった複合制御を実現しました。

2026年6月21日

Holo-Worldとは？カメラ・物体・天気を1つのモデルで制御するビデオ生成の新手法

論文解説動画

Kairosとは？物理AIの世界モデル基盤でハイブリッド注意が誤差蓄積を理論保証

物理AI向け世界モデル「Kairos」は、3種の注意機構を組み合わせたハイブリッド時間アーキテクチャで誤差蓄積の上限を理論的に証明し、RoboTwin 2.0など複数ベンチマークで最高水準の性能を達成しました。

2026年6月18日

Kairosとは？物理AIの世界モデル基盤でハイブリッド注意が誤差蓄積を理論保証

論文解説動画

TetherCacheとは？長尺動画の品質ドリフトを訓練なしで抑えるKVキャッシュ管理手法

自己回帰型拡散モデルで生じる長尺動画の品質ドリフトを、追加学習なしで抑える「TetherCache」を解説します。GRABとTAMEの2機構により、240秒生成での品質ドリフトスコアを7.84から1.33に大幅削減しました。

2026年6月14日

TetherCacheとは？長尺動画の品質ドリフトを訓練なしで抑えるKVキャッシュ管理手法

論文解説動画

MoVerseとは？1枚の写真からリアルタイムで歩き回れる3Dシーン生成

MoVerse は1枚の写真から360°パノラマ生成・3D空間再構成を経て、RTX 4090で8 FPSのリアルタイム動画を出力する新手法です。VR/ARやゲーム、ロボティクスへの応用が期待されます。

2026年6月13日

論文解説動画

Mirageとは？潜在空間3Dメモリで動画ワールドモデルを10倍高速化する新フレームワーク

Microsoft Researchらが提案するMirageは、動画ワールドモデルのメモリをピクセルではなく潜在空間の3D座標に直接持つことで、従来比10.57倍の高速化と55倍のメモリ削減を実現しました。

2026年6月9日

Mirageとは？潜在空間3Dメモリで動画ワールドモデルを10倍高速化する新フレームワーク

論文解説動画

Dream.exeとは？動画生成AIの物理実行可能性を問う新評価フレームワーク

Dream.exeは8種類の動画生成モデルを101件のロボット操作タスクで評価し、視覚的品質と物理的実行成功率が無相関（r=−0.03）という事実を実証した新評価フレームワークです。

2026年6月7日

論文解説動画

LoomVideoとは？MLLMバックボーンで動画生成・編集を統合し5.41倍高速化する新手法

北京大学発の5Bパラメータ動画モデル「LoomVideo」は、MLLMをバックボーンに採用して動画生成と編集を統合。Scale-and-Add条件付けにより類似性能帯モデル比5.41倍の推論高速化を実現しています。

2026年6月5日

LoomVideoとは？MLLMバックボーンで動画生成・編集を統合し5.41倍高速化する新手法

論文解説動画

AAD-1とは？非対称敵対的蒸留で自己回帰動画生成を1ステップ化する新手法

自己回帰動画生成を1ステップに圧縮するAAD-1を解説します。因果的な生成器と双方向識別器の非対称設計で動きの崩壊を克服し、VBenchで既存の4ステップ手法を上回るSOTAを達成しました。

2026年6月4日

論文解説動画

Echo-Infinityとは？学習可能な進化型メモリで24時間超の無限動画をリアルタイム生成

24時間超・130万フレーム以上の動画をリアルタイム生成する初のフレームワーク「Echo-Infinity」を解説。人間の記憶統合に着想した学習可能メモリと改良版RoPEで、短尺・長尺の両タスクでSoTAを達成しました。

2026年6月4日

Echo-Infinityとは？学習可能な進化型メモリで24時間超の無限動画をリアルタイム生成

論文解説動画

VideoMLAとは？MLAをビデオ拡散に初適用しKVキャッシュを92.7%削減する新手法

DeepSeek V2/V3で注目されたMLA技術をビデオ拡散に初適用した「VideoMLA」を解説します。KVキャッシュを92.7%削減しながら分単位の長尺動画生成を実現し、VBenchで最高スコアを達成しました。

2026年5月31日

VideoMLAとは？MLAをビデオ拡散に初適用しKVキャッシュを92.7%削減する新手法

論文解説動画

WorldKVとは？カメラ情報でKVキャッシュを選別し動画世界モデルを2倍高速化

KAISTが提案するWorldKVは、カメラ・行動情報に基づくKVキャッシュの取得と類似度ベースの圧縮により、動画世界モデルのスループットを訓練不要で約2倍に高めながらフルキャッシュ保持と同等の映像品質を維持します。

2026年5月24日

WorldKVとは？カメラ情報でKVキャッシュを選別し動画世界モデルを2倍高速化

論文解説動画

LongLive-2.0とは？NVFP4並列インフラで長時間動画生成を2倍高速化する新手法

NVIDIAが発表したLongLive-2.0は、NVFP4（4bit浮動小数点）精度を訓練・推論の全工程に適用した長時間動画生成インフラです。Balanced SPとNVFP4の組み合わせで訓練2.15倍・推論1.84倍の高速化を達成し、5BモデルでFPS45.7のリアルタイム生成を実現しました。

2026年5月19日

動画

Holo-Worldとは？カメラ・物体・天気を1つのモデルで制御するビデオ生成の新手法

Kairosとは？物理AIの世界モデル基盤でハイブリッド注意が誤差蓄積を理論保証

TetherCacheとは？長尺動画の品質ドリフトを訓練なしで抑えるKVキャッシュ管理手法

MoVerseとは？1枚の写真からリアルタイムで歩き回れる3Dシーン生成

Mirageとは？潜在空間3Dメモリで動画ワールドモデルを10倍高速化する新フレームワーク

Dream.exeとは？動画生成AIの物理実行可能性を問う新評価フレームワーク

LoomVideoとは？MLLMバックボーンで動画生成・編集を統合し5.41倍高速化する新手法

AAD-1とは？非対称敵対的蒸留で自己回帰動画生成を1ステップ化する新手法

Echo-Infinityとは？学習可能な進化型メモリで24時間超の無限動画をリアルタイム生成

VideoMLAとは？MLAをビデオ拡散に初適用しKVキャッシュを92.7%削減する新手法

WorldKVとは？カメラ情報でKVキャッシュを選別し動画世界モデルを2倍高速化

LongLive-2.0とは？NVFP4並列インフラで長時間動画生成を2倍高速化する新手法

人気記事