AI最前線コラム

AI-PapersAI論文解説・ニュースブログ

検索運営者情報お問い合わせプライバシーポリシー利用規約

© 2026 AI-Papers. All rights reserved.

ホーム
論文解説
画像

画像

論文解説画像

FreeStyleとは？コミュニティLoRAでスタイルとコンテンツを独立制御する画像生成手法

コミュニティLoRAを合成データ生成の足場として活用し、スタイルと内容を独立制御するデュアルリファレンス画像生成「FreeStyle」。注意機構レベル制約と周波数対応RoPE変調で高品質な分離を実現しました。

2026年6月22日

FreeStyleとは？コミュニティLoRAでスタイルとコンテンツを独立制御する画像生成手法

論文解説画像

SSDとは？自己回帰型画像生成を2D空間投機的デコードで最大13.3倍高速化

ルターガース大学のチームが発表したSSDは、画像トークンの2次元空間構造を活かした投機的デコードで自己回帰型画像生成を最大13.3倍に高速化。DPG-BenchとGenEvalで生成品質を維持したまま高速化を達成しています。

2026年6月20日

SSDとは？自己回帰型画像生成を2D空間投機的デコードで最大13.3倍高速化

論文解説画像

Moebiusとは？0.22Bの超軽量モデルで10Bクラスの画像修復品質を実現、推論速度15倍超

わずか0.22Bパラメータで産業用10Bモデル「FLUX.1-Fill-Dev」に匹敵する画像修復品質を実現する軽量フレームワーク「Moebius」を紹介します。LλMIブロックと適応的多粒度蒸留により推論速度15倍超を達成し、個人開発者のGPUでも高品質な画像修復が可能です。

2026年6月20日

Moebiusとは？0.22Bの超軽量モデルで10Bクラスの画像修復品質を実現、推論速度15倍超

論文解説画像

Modality Forcingとは？疎な深度データで学習する画像・深度マップ同時生成手法

単一のDiTモデルで画像と深度マップを同時生成する「Modality Forcing」を解説。疎な実世界深度データで学習し、従来手法比AbsRelエラーを57%削減した仕組みと成果を紹介します。

2026年6月13日

Modality Forcingとは？疎な深度データで学習する画像・深度マップ同時生成手法

論文解説画像

i1とは？公開データだけで既存オープンモデルを29.5pt超える画像生成の完全レシピ

スタンフォード大が300以上の実験で体系化したテキスト→画像拡散モデルの設計レシピ。公開データのみで訓練した3Bパラメータモデルが5ベンチマーク平均で既存オープンモデルを29.5pt上回る性能を達成しました。

2026年6月11日

i1とは？公開データだけで既存オープンモデルを29.5pt超える画像生成の完全レシピ

論文解説画像

複雑性均衡拡散分割（CBS）とは？拡散モデルのFIDを35%改善する理論的手法

拡散モデルの生成タイムラインをde Boorの等分配原理で自動分割する「複雑性均衡拡散分割（CBS）」を解説します。SiT-XL/2でFIDを35%改善しながら推論コストは変わりません。

2026年6月7日

複雑性均衡拡散分割（CBS）とは？拡散モデルのFIDを35%改善する理論的手法

論文解説画像

ByGとは？ペアデータ不要で画像・動画編集を実現するブートストラップ学習フレームワーク

ペアデータなしで画像・動画編集モデルを訓練できるフレームワーク「ByG」がICML 2026に採択されました。凍結した基盤モデルのEMAコピーで疑似ターゲットを生成し、循環一貫性と勾配ルーティングで100万ペアの教師あり手法を上回る性能を実証しています。

2026年6月3日

ByGとは？ペアデータ不要で画像・動画編集を実現するブートストラップ学習フレームワーク

論文解説画像

Colored Noise Samplingとは？拡散モデルの生成品質をFID 24%改善する新手法

拡散モデルが低周波から高周波の順に情報を解像する「スペクトルバイアス」に着目し、周波数ごとにノイズを動的配分するColored Noise Sampling（CNS）を解説。追加学習不要でFIDを最大30%改善します。

2026年5月30日

Colored Noise Samplingとは？拡散モデルの生成品質をFID 24%改善する新手法

論文解説画像

GenClawとは？SVG・HTMLコードを中間層に使ったエージェント型画像生成の仕組み

テンセントHunyuanが提案するGenClawは、LLMがSVG・HTMLコードで「視覚スケッチ」を生成し画像モデルが仕上げを担う3段階パイプラインで、複雑な空間構成とテキスト生成の精度を大幅に高めます。

2026年5月30日

GenClawとは？SVG・HTMLコードを中間層に使ったエージェント型画像生成の仕組み

論文解説画像

CollectionLoRAとは？50種の画像効果LoRAを1モデルに統合する新手法

50種の画像効果LoRAを1つのモデルに統合する「CollectionLoRA」を解説します。ストレージを従来の2%まで削減しながら、ユーザー評価でConsistency 66.2%を達成した新手法です。

2026年5月29日

CollectionLoRAとは？50種の画像効果LoRAを1モデルに統合する新手法

論文解説画像

MRTとは？マスク領域Transformerで3タスクを統合した20B画像生成・編集モデル

マスク領域Transformer（MRT）は、テキスト・画像・レイヤー間の3タスクを統合した20Bパラメータ拡散モデルです。Qwen-Image-Layeredと比較して最大108倍の高速化と90%のメモリ削減を実現し、デザイン向け画像生成・編集の実用性を大幅に高めます。

2026年5月27日

MRTとは？マスク領域Transformerで3タスクを統合した20B画像生成・編集モデル

論文解説画像

TriSplatとは？三角形プリミティブで3Dシーン再構成し幾何精度40%向上を実現

三角形プリミティブで3Dシーンを再構成するフィードフォワード手法「TriSplat」を解説します。幾何精度40%向上と最大249倍の高速化を実現し、UnityやIsaac Simへの直接インポートにも対応します。

2026年5月26日

TriSplatとは？三角形プリミティブで3Dシーン再構成し幾何精度40%向上を実現

前へ
1
2
3
4
次へ

カテゴリ

論文解説
ニュース
- 技術
- ビジネス
AI最前線コラム

人気記事

LLMはなぜ日本文化に偏る？欧州研究が明かすAIの隠れた文化バイアス
2026年4月30日
MolmoAct2とは？GPT-5・Gemini Roboticsを超えたオープンVLAモデルを解説
2026年5月5日
GitHub Copilot がトークン課金制へ移行、一部ユーザーで月額29ドルが750ドルに急騰
2026年5月31日
arXiv、AI任せ論文の著者を1年間投稿禁止へ — 学術AI利用規制が本格化
2026年5月17日
Absolicsのガラス基板とは？AIチップ性能を10倍高密度化する次世代パッケージング
2026年3月15日