AI-Papers

AI最前線コラム

AI-PapersAI論文解説・ニュースブログ

検索運営者情報お問い合わせプライバシーポリシー利用規約

動画の記事一覧 (2ページ目) | AI-Papers

ホーム
論文解説
動画

動画

論文解説動画

Warp-as-Historyとは？フリーズモデルで実現するゼロショットカメラ制御ビデオ生成

カメラ誘発ワープを「擬似履歴」として既存ビデオモデルに注入し、モデルの重みを変えずにカメラ制御を実現する新手法「Warp-as-History」を解説します。1本の動画でのLoRA学習でカメラ制御スコアを134.7%改善します。

2026年5月17日

Warp-as-Historyとは？フリーズモデルで実現するゼロショットカメラ制御ビデオ生成

論文解説動画

RefDecoderとは？参照フレーム注入で動画品質を最大+2.1dB向上させる新手法

動画VAEのデコーダに参照フレームを直接注入する「RefDecoder」が提案されました。ファインチューニング不要でWan 2.1やVideoVAE+に即座に適用でき、PSNRを最大+2.1dB向上させる新手法を解説します。

2026年5月16日

RefDecoderとは？参照フレーム注入で動画品質を最大+2.1dB向上させる新手法

論文解説動画

Causal Forcing++とは？1〜2ステップ拡散蒸留でリアルタイム動画生成を実現

自己回帰型動画生成モデルに因果一貫性蒸留を導入し、1〜2ステップの超高速フレーム生成を実現するCausal Forcing++を解説。訓練コスト4倍削減と初回レイテンシ50%削減を達成しつつ、VBench品質スコアで従来手法を上回ります。

2026年5月15日

Causal Forcing++とは？1〜2ステップ拡散蒸留でリアルタイム動画生成を実現

論文解説動画

SANA-WMとは？単一GPUで720p・60秒動画を生成するNVIDIAの効率的世界モデル

NVIDIAが公開したオープンソース世界モデルSANA-WMは、2.6Bパラメータで720p・60秒の動画を単一GPU上で生成します。ハイブリッドアテンションと二重分岐カメラ制御により、より大きな競合モデルと同等以上の映像品質とカメラ追従精度を実現しています。

2026年5月15日

SANA-WMとは？単一GPUで720p・60秒動画を生成するNVIDIAの効率的世界モデル

論文解説動画

AnyFlowとは？任意ステップ対応の動画拡散蒸留でテスト時スケーリングを実現する新手法

NVIDIAが提案するAnyFlowは、ステップ増加で品質が低下するConsistency Distillationの問題を解消した初の任意ステップ動画蒸留フレームワークです。1.3Bから14Bパラメータのモデルでテスト時スケーリングを実証しました。

2026年5月14日

AnyFlowとは？任意ステップ対応の動画拡散蒸留でテスト時スケーリングを実現する新手法

論文解説動画

SwiftI2Vとは？2K動画生成をRTX 4090で202倍高速化するCSGフレームワーク

SwiftI2Vは2段階フレームワークとCSG（セグメント単位生成）を組み合わせ、2K解像度のImage-to-Video生成においてGPU処理時間を202倍削減しながらVBench-I2Vで最高スコアを達成した新手法です。RTX 4090でも実用的な運用が可能です。

2026年5月10日

SwiftI2Vとは？2K動画生成をRTX 4090で202倍高速化するCSGフレームワーク

論文解説動画

Stream-R1とは？信頼性と複雑度を考慮した報酬蒸留でストリーミング動画生成を向上させる新手法

自己回帰型ストリーミング動画拡散モデルの蒸留フレームワーク「Stream-R1」を解説。ロールアウト単位の信頼性と空間・時間的複雑度を単一の報酬モデルで制御し、全ベンチマーク指標で品質を向上させます。

2026年5月7日

Stream-R1とは？信頼性と複雑度を考慮した報酬蒸留でストリーミング動画生成を向上させる新手法

論文解説動画

UniVidXとは？動画・アルベド・法線・RGBAを1モデルで統一生成する新手法

動画・アルベド・法線・RGBAを単一モデルで統一生成するフレームワーク「UniVidX」をSIGGRAPH 2026に発表。1,000本未満のデータで既存SOTAと同等以上の性能を達成しています。

2026年5月5日

UniVidXとは？動画・アルベド・法線・RGBAを1モデルで統一生成する新手法

論文解説動画

Vista4Dとは？4Dポイントクラウドで動画を任意視点から再合成するCVPR 2026手法

CVPR 2026採択のVista4Dは、4Dポイントクラウドを活用して動画を任意の視点・カメラ軌跡から再合成するフレームワークです。深度推定誤差や外観保存の失敗という従来課題を、静的ピクセル永続性と多視点動的データ学習で解決します。

2026年4月27日

Vista4Dとは？4Dポイントクラウドで動画を任意視点から再合成するCVPR 2026手法

論文解説動画

Matrix-Game 3.0とは？720p・最大40FPSでリアルタイムを実現するインタラクティブワールドモデル

Matrix-Game 3.0は、Unreal Engineとゲームデータを活用した大規模学習と3段階の推論最適化により、720p・最大40FPSのリアルタイムインタラクティブ動画生成を実現した世界モデルです。ゲームや自動運転分野への実用化が注目されます。

2026年4月13日

Matrix-Game 3.0とは？720p・最大40FPSでリアルタイムを実現するインタラクティブワールドモデル

論文解説動画

VOIDとは？物理的インタラクションを因果推論で除去するNetflix動画編集フレームワーク

Netflixが開発したVOIDは、動画から物体を削除する際に衝突・接触などの物理的インタラクションの因果連鎖ごと除去する手法です。

2026年4月6日

VOIDとは？物理的インタラクションを因果推論で除去するNetflix動画編集フレームワーク

論文解説動画

PackForcingとは？5秒学習で2分動画を生成する24倍時間外挿フレームワーク

自己回帰型動画拡散モデルのKVキャッシュ爆発問題を解決するPackForcing。5秒クリップの学習から120秒（2分）の動画をH200単一GPU上で生成し、VBench Dynamic Degree 56.25を達成しています。

2026年3月27日

動画

Warp-as-Historyとは？フリーズモデルで実現するゼロショットカメラ制御ビデオ生成

RefDecoderとは？参照フレーム注入で動画品質を最大+2.1dB向上させる新手法

Causal Forcing++とは？1〜2ステップ拡散蒸留でリアルタイム動画生成を実現

SANA-WMとは？単一GPUで720p・60秒動画を生成するNVIDIAの効率的世界モデル

AnyFlowとは？任意ステップ対応の動画拡散蒸留でテスト時スケーリングを実現する新手法

SwiftI2Vとは？2K動画生成をRTX 4090で202倍高速化するCSGフレームワーク

Stream-R1とは？信頼性と複雑度を考慮した報酬蒸留でストリーミング動画生成を向上させる新手法

UniVidXとは？動画・アルベド・法線・RGBAを1モデルで統一生成する新手法

Vista4Dとは？4Dポイントクラウドで動画を任意視点から再合成するCVPR 2026手法

Matrix-Game 3.0とは？720p・最大40FPSでリアルタイムを実現するインタラクティブワールドモデル

VOIDとは？物理的インタラクションを因果推論で除去するNetflix動画編集フレームワーク

PackForcingとは？5秒学習で2分動画を生成する24倍時間外挿フレームワーク

人気記事