AI-Papers

AI最前線コラム

AI-PapersAI論文解説・ニュースブログ

検索運営者情報お問い合わせプライバシーポリシー利用規約

画像の記事一覧 (2ページ目) | AI-Papers

ホーム
論文解説
画像

画像

論文解説画像

DARとは？DiTの残差接続を刷新し学習速度8.75倍を実現する新ルーティング手法

DiTの残差接続が抱える前向き膨張・後向き勾配減衰・ブロック冗長性を解決するDAR（Diffusion-Adaptive Routing）を解説。FIDスコアを9.67から7.56に改善し、学習ステップを8.75分の1に短縮します。

2026年5月25日

DARとは？DiTの残差接続を刷新し学習速度8.75倍を実現する新ルーティング手法

論文解説画像

PiDとは？ピクセル拡散デコーダで4〜8倍高解像度化と最大6倍高速化を同時実現する新手法

NVIDIAが提案するPiDは、潜在拡散モデルのVAEデコーダをピクセル空間の拡散プロセスに置き換え、512×512の潜在変数から2048×2048の高解像度画像を生成する新手法です。SeedVR2比で5.9倍の速度向上を達成しつつ、視覚品質の改善も示されています。

2026年5月25日

PiDとは？ピクセル拡散デコーダで4〜8倍高解像度化と最大6倍高速化を同時実現する新手法

論文解説画像

Lensとは？GPT-4.1高密度キャプションで画像生成の学習コストを19%削減する新手法

Microsoftが提案する3.8BパラメータのT2Iモデル「Lens」。GPT-4.1生成の高密度キャプション8億件と計算量換算19.3%という効率的な学習を実現した仕組みを解説します。

2026年5月25日

Lensとは？GPT-4.1高密度キャプションで画像生成の学習コストを19%削減する新手法

論文解説画像

PhysX-Omniとは？剛体・変形体・関節体を統一するシミュレーション対応3D生成フレームワーク

剛体・変形体・関節体を統一的に扱うシミュレーション対応3D生成フレームワーク「PhysX-Omni」を解説。新データセット「PhysXVerse」と評価ベンチマーク「PhysX-Bench」も同時公開。

2026年5月23日

PhysX-Omniとは？剛体・変形体・関節体を統一するシミュレーション対応3D生成フレームワーク

論文解説画像

SEGAとは？学習不要でDiTを高解像度化するスペクトルエネルギー誘導アテンション

Flux・SD3などのDiTモデルが抱える高解像度生成時の構造崩壊を、追加学習なしで解決するSEGAを解説。潜在空間のスペクトルエネルギーでRoPEを動的スケーリングし、4096²超の高品質生成を実現します。

2026年5月23日

SEGAとは？学習不要でDiTを高解像度化するスペクトルエネルギー誘導アテンション

論文解説画像

TideGSとは？単一24GB GPUで10億個超の3Dガウスを訓練するアウトオブコア最適化手法

単一24GB GPUで10億個超の3Dガウシアンを訓練するフレームワーク「TideGS」を解説。ブロック仮想化・非同期パイプライン・差分ストリーミングの3技術でVRAMの壁を突破し、ICML 2026 Spotlightに採択されました。

2026年5月20日

TideGSとは？単一24GB GPUで10億個超の3Dガウスを訓練するアウトオブコア最適化手法

論文解説画像

PixVerveとは？100メガピクセルのネイティブ画像生成を実現した新フレームワーク

テキストから1億画素（100MP）の超高解像度画像をネイティブ生成するフレームワーク「PixVerve」を解説。9.5万枚のデータセットと8指標の評価ベンチを合わせて紹介します。

2026年5月20日

PixVerveとは？100メガピクセルのネイティブ画像生成を実現した新フレームワーク

論文解説画像

VFMTokとは？視覚基盤モデルを凍結転用した高速・高精度画像生成トークナイザー

凍結した視覚基盤モデル（VFM）を画像トークナイザーへ転用するVFMTokを解説します。領域適応的量子化とセマンティック再構成目標により、ImageNetでgFID 1.36を達成し、収束速度3倍・推論速度最大4倍の高速化も実現します。

2026年5月19日

VFMTokとは？視覚基盤モデルを凍結転用した高速・高精度画像生成トークナイザー

論文解説画像

InsightTokとは？自己回帰型画像生成でテキスト・顔品質を高めるコンテンツ対応トークナイザ

自己回帰型画像生成のトークナイザが抱えるテキスト文字の潰れ・顔ディテール喪失を、コンテンツ対応の局所知覚損失で解決する新手法「InsightTok」を解説します。NED精度95.83%、顔類似度でEmu3.5-IBQを超える結果を16kコードブックで達成。

2026年5月18日

InsightTokとは？自己回帰型画像生成でテキスト・顔品質を高めるコンテンツ対応トークナイザ

論文解説画像

VGGT-Editとは？テキスト指示で3Dシーンをフィードフォワード即時編集する新手法

VGGT-Editは、テキスト指示によるネイティブ3Dシーン編集をフィードフォワード推論で実現する新手法です。深度同期テキスト注入とレジデュアル変換ヘッドで多視点一貫性を保ちながら、従来手法比2〜120倍の速度で高品質な編集を達成します。

2026年5月17日

VGGT-Editとは？テキスト指示で3Dシーンをフィードフォワード即時編集する新手法

論文解説画像

AsymFlowとは？低ランク非対称速度パラメータ化でFID 1.57を達成したフロー生成モデル

Stanford大学発のフロー生成モデル「AsymFlow」が、ノイズ成分を低ランク部分空間に限定する非対称速度パラメータ化によりImageNet 256×256でFID 1.57を達成。FLUX.2 kleinをピクセル空間に変換する初の手法も提案しています。

2026年5月14日

AsymFlowとは？低ランク非対称速度パラメータ化でFID 1.57を達成したフロー生成モデル

論文解説画像

Qwen-Image-2.0とは？Qwen3-VLと拡散変換器で生成・編集を統合した画像基盤モデル

QwenチームのQwen-Image-2.0はQwen3-VLとMultimodal Diffusion Transformerを組み合わせ、生成と編集を1モデルに統合。1,000トークン対応で多言語タイポグラフィも大幅改善しました。

2026年5月12日

画像

DARとは？DiTの残差接続を刷新し学習速度8.75倍を実現する新ルーティング手法

PiDとは？ピクセル拡散デコーダで4〜8倍高解像度化と最大6倍高速化を同時実現する新手法

Lensとは？GPT-4.1高密度キャプションで画像生成の学習コストを19%削減する新手法

PhysX-Omniとは？剛体・変形体・関節体を統一するシミュレーション対応3D生成フレームワーク

SEGAとは？学習不要でDiTを高解像度化するスペクトルエネルギー誘導アテンション

TideGSとは？単一24GB GPUで10億個超の3Dガウスを訓練するアウトオブコア最適化手法

PixVerveとは？100メガピクセルのネイティブ画像生成を実現した新フレームワーク

VFMTokとは？視覚基盤モデルを凍結転用した高速・高精度画像生成トークナイザー

InsightTokとは？自己回帰型画像生成でテキスト・顔品質を高めるコンテンツ対応トークナイザ

VGGT-Editとは？テキスト指示で3Dシーンをフィードフォワード即時編集する新手法

AsymFlowとは？低ランク非対称速度パラメータ化でFID 1.57を達成したフロー生成モデル

Qwen-Image-2.0とは？Qwen3-VLと拡散変換器で生成・編集を統合した画像基盤モデル

人気記事