DiTの残差接続が抱える前向き膨張・後向き勾配減衰・ブロック冗長性を解決するDAR(Diffusion-Adaptive Routing)を解説。FIDスコアを9.67から7.56に改善し、学習ステップを8.75分の1に短縮します。
NVIDIAが提案するPiDは、潜在拡散モデルのVAEデコーダをピクセル空間の拡散プロセスに置き換え、512×512の潜在変数から2048×2048の高解像度画像を生成する新手法です。SeedVR2比で5.9倍の速度向上を達成しつつ、視覚品質の改善も示されています。
Microsoftが提案する3.8BパラメータのT2Iモデル「Lens」。GPT-4.1生成の高密度キャプション8億件と計算量換算19.3%という効率的な学習を実現した仕組みを解説します。
剛体・変形体・関節体を統一的に扱うシミュレーション対応3D生成フレームワーク「PhysX-Omni」を解説。新データセット「PhysXVerse」と評価ベンチマーク「PhysX-Bench」も同時公開。
Flux・SD3などのDiTモデルが抱える高解像度生成時の構造崩壊を、追加学習なしで解決するSEGAを解説。潜在空間のスペクトルエネルギーでRoPEを動的スケーリングし、4096²超の高品質生成を実現します。
単一24GB GPUで10億個超の3Dガウシアンを訓練するフレームワーク「TideGS」を解説。ブロック仮想化・非同期パイプライン・差分ストリーミングの3技術でVRAMの壁を突破し、ICML 2026 Spotlightに採択されました。
テキストから1億画素(100MP)の超高解像度画像をネイティブ生成するフレームワーク「PixVerve」を解説。9.5万枚のデータセットと8指標の評価ベンチを合わせて紹介します。
凍結した視覚基盤モデル(VFM)を画像トークナイザーへ転用するVFMTokを解説します。領域適応的量子化とセマンティック再構成目標により、ImageNetでgFID 1.36を達成し、収束速度3倍・推論速度最大4倍の高速化も実現します。
自己回帰型画像生成のトークナイザが抱えるテキスト文字の潰れ・顔ディテール喪失を、コンテンツ対応の局所知覚損失で解決する新手法「InsightTok」を解説します。NED精度95.83%、顔類似度でEmu3.5-IBQを超える結果を16kコードブックで達成。
VGGT-Editは、テキスト指示によるネイティブ3Dシーン編集をフィードフォワード推論で実現する新手法です。深度同期テキスト注入とレジデュアル変換ヘッドで多視点一貫性を保ちながら、従来手法比2〜120倍の速度で高品質な編集を達成します。
Stanford大学発のフロー生成モデル「AsymFlow」が、ノイズ成分を低ランク部分空間に限定する非対称速度パラメータ化によりImageNet 256×256でFID 1.57を達成。FLUX.2 kleinをピクセル空間に変換する初の手法も提案しています。
QwenチームのQwen-Image-2.0はQwen3-VLとMultimodal Diffusion Transformerを組み合わせ、生成と編集を1モデルに統合。1,000トークン対応で多言語タイポグラフィも大幅改善しました。
LLMはなぜ日本文化に偏る? 欧州研究が明かすAIの隠れた文化バイアス
MolmoAct2とは?GPT-5・Gemini Roboticsを超えたオープンVLAモデルを解説
GitHub Copilot がトークン課金制へ移行、一部ユーザーで月額29ドルが750ドルに急騰
arXiv、AI任せ論文の著者を1年間投稿禁止へ — 学術AI利用規制が本格化
Absolicsのガラス基板とは?AIチップ性能を10倍高密度化する次世代パッケージング