QwenチームのQwen-Image-2.0はQwen3-VLとMultimodal Diffusion Transformerを組み合わせ、生成と編集を1モデルに統合。1,000トークン対応で多言語タイポグラフィも大幅改善しました。
拡散モデルの超深層化で発生するトークン均質化崩壊「Mean Mode Screaming」を初特定。MV-Split残差で世界初の1000層DiT安定学習とFID 2.68を達成した研究を解説します。
Continuous-Time Distribution Matching(CDM)は、固定離散タイムステップへの依存を動的連続スケジュールで置き換えることで拡散モデルの蒸留を刷新。GANや報酬モデル不要で過平滑化を解消し、SD3-MediumとLongcat-Imageで4ステップの高品質生成を実現した新手法を解説します。
拡散モデルのRL微調整で美的品質・テキスト描画・構図理解など5つの報酬を同時改善する「MARBLE」を解説。二次計画法による勾配ハーモナイゼーションで従来の加重和法が抱えるスペシャリストサンプル問題を解決します。
Flow MatchingモデルFluxの後訓練アライメントを、長い生成軌跡の2ステップへの圧縮で効率化した手法LeapAlignを解説。HPSv2.1スコアで既存手法を6ポイント超上回り、CVPR 2026に採択されました。
GoogleがImageNet-512でFID 1.4、Kinetics-600でFVD 1.3を達成する新フレームワーク「Unified Latents(UL)」を提案。拡散事前分布で潜在空間を正則化し、Stable Diffusionより少ない学習FLOPsで優れた品質を実現する潜在表現学習の仕組みを解説します。
再学習不要でDiffusion Transformerを最大3.52倍高速化するDDiTの仕組みと検証結果を解説。FLUX-1.DevやWan 2.1に即適用でき、推論コスト削減に活用できます。
拡散トランスフォーマーベースの命令駆動型画像編集システム「FireRed-Image-Edit 1.0」が登場。16億サンプルの大規模データと強化学習を組み合わせ、独自ベンチマークREDEdit-Benchの全15カテゴリで商用システムと同等以上の性能を達成します。
従来のコードブック方式に代わりバイナリトークンを採用した画像生成手法「BitDance」を解説。260Mパラメータで自己回帰モデル最高のFID 1.24を達成し、最大30倍の高速化を実現した仕組みを紹介します。
Shanghai Innovation Instituteが開発した50億パラメータの軽量モデル「DeepGen 1.0」は、画像生成と編集を統合的に処理し、800億パラメータのモデルを28%上回る性能を実現。独自のSCB手法と3段階学習戦略が鍵となっています。
離散トークンをビット単位で段階的に予測する新手法「BAR」が、ImageNet-256でFID 0.99を達成。Diffusionモデルを含む従来手法を上回る生成品質と最大20倍の高速化を両立し、画像生成の新たなパラダイムを提示しました。
本記事で使用している画像は論文中の図表、またはそれを参考に作成した画像を使用しております。 本論文の概要 この論文では、拡散モデル(Diffusion Models)における推論時間の効率化の課題に焦点を当てています。従 […]
MolmoAct2とは?GPT-5・Gemini Roboticsを超えたオープンVLAモデルを解説
HY-World 2.0とは?テキスト・画像・動画から3D世界を生成するマルチモーダルワールドモデル
Absolicsのガラス基板とは?AIチップ性能を10倍高密度化する次世代パッケージング
AIエージェントフレームワーク比較【2026】LangGraph・CrewAI・OpenAI Agents SDKの選び方
Anthropic、Coefficient Bioを約4億ドルで買収、AI創薬に本格参入