自己回帰型ストリーミング動画拡散モデルの蒸留フレームワーク「Stream-R1」を解説。ロールアウト単位の信頼性と空間・時間的複雑度を単一の報酬モデルで制御し、全ベンチマーク指標で品質を向上させます。
動画・アルベド・法線・RGBAを単一モデルで統一生成するフレームワーク「UniVidX」をSIGGRAPH 2026に発表。1,000本未満のデータで既存SOTAと同等以上の性能を達成しています。
CVPR 2026採択のVista4Dは、4Dポイントクラウドを活用して動画を任意の視点・カメラ軌跡から再合成するフレームワークです。深度推定誤差や外観保存の失敗という従来課題を、静的ピクセル永続性と多視点動的データ学習で解決します。
Matrix-Game 3.0は、Unreal Engineとゲームデータを活用した大規模学習と3段階の推論最適化により、720p・最大40FPSのリアルタイムインタラクティブ動画生成を実現した世界モデルです。ゲームや自動運転分野への実用化が注目されます。
Netflixが開発したVOIDは、動画から物体を削除する際に衝突・接触などの物理的インタラクションの因果連鎖ごと除去する手法です。
自己回帰型動画拡散モデルのKVキャッシュ爆発問題を解決するPackForcing。5秒クリップの学習から120秒(2分)の動画をH200単一GPU上で生成し、VBench Dynamic Degree 56.25を達成しています。
KV-cacheや量子化を一切使わずに単一H100 GPUで19.5 FPSを実現した14B自己回帰拡散モデル「Helios」。長時間動画のdrifting問題もトレーニング戦略で根本解決し、T2V・I2V・V2Vをネイティブサポートします。
清華大学が提案したSpargeAttention2は、Top-kとTop-pのマスキング限界を理論分析し、ハイブリッド統合と蒸留微調整でアテンション計算を95%削減・16.2倍高速化しながら、既存手法を全指標で上回る生成品質を実現します。
UC BerkeleyとTsinghua大学の共同研究「SLA2」が、学習可能なルーターとQATによりビデオ拡散モデルのアテンション計算を97%スパース化しながら18.6倍の高速化と品質向上を同時に実現しました。ICML 2025採択。
本記事で使用している画像は論文中の図表、またはそれを参考に作成した画像を使用しております。 本論文の概要 この論文では、仮想3D空間における映像制作を自動化するための新しいフレームワークである「FILMAGENT」を提案 […]
本記事で使用している画像は論文中の図表、またはそれを参考に作成した画像を使用しております。 本論文の概要 この論文では、「GameFactory」と呼ばれる新しい生成モデルを提案し、ゲームプレイのシーンをビデオとして生成 […]
本記事で使用している画像は論文中の図表、またはそれを参考に作成した画像を使用しております。 本論文の概要 本論文は、現実世界における映像の超解像(Video Super-Resolution, VSR)を改良する新しいフ […]
HY-World 2.0とは?テキスト・画像・動画から3D世界を生成するマルチモーダルワールドモデル
Anthropic、Coefficient Bioを約4億ドルで買収、AI創薬に本格参入
ベクトルデータベース比較【2026年版】Pinecone・Qdrant・Weaviate・Milvusを徹底解説
AIエージェントフレームワーク比較【2026】LangGraph・CrewAI・OpenAI Agents SDKの選び方
Absolicsのガラス基板とは?AIチップ性能を10倍高密度化する次世代パッケージング