拡散モデル

画像

拡散モデル効率化のアルゴリズムと評価手法

新しい検索アルゴリズムと評価フレームワークを提案し、拡散モデルの推論時間を効率化。Verifierモデルと3つの検索アルゴリズムを比較し、複数のベンチマークタスクで高品質な生成と計算時間の削減を確認。
ニュース

Inceptionが「Mercury Coder」発表!従来比10倍高速なAIモデル

Inceptionが新AIモデル「Mercury Coder」を発表!従来のモデルより最大10倍高速でテキスト生成。画像や動画で使われる拡散型手法を応用し、6秒で出力可能。デモサイトやHugging Faceで試用可能。
画像

【OmniGen】画像生成や編集などの多様なタスクを1つのモデルで処理!

この論文では、OmniGenという新しい画像生成モデルを提案しています。OmniGenは、従来のモデルが個別に対応していたテキスト生成や画像編集などの多様なタスクを、一つのフレームワークで統一的に処理することを可能にし、追加のモジュールを必要とせず、多様な条件下で効率的かつ柔軟な画像生成が実現。
論文解説

【EzAudio】1次元の波形データとDiTで効率かつ高品質な音声を生成!

この論文では、テキストから音声を生成する「EzAudio」という新しいモデルを提案。従来のモデルが抱えていた品質や計算コストの課題を克服するため、1次元の波形データを利用した効率的なTransformerモデルを開発し、計算コストを削減して高品質な音声生成が可能となりました。
画像

【InstantDrag】ドラック指示するだけで画像を微修正できる編集AI

画像編集の新しい手法である「InstantDrag」を提案しています。この手法は、ユーザーが指定したドラッグ操作に基づいて、画像をインタラクティブかつ高速に編集できる技術です。特に動画データセットを用いた訓練によって、現実世界の動的な画像編集に対応しています。