生成AI

論文解説

【Moshi】重複発話や割り込み対応が可能な音声対話モデル!遅延の少ない全二重の対話が実現

この論文では、Moshiというリアルタイム音声対話モデルを提案しています。Moshiは、音声から直接音声を生成する技術を用いることで、自然な会話体験を提供します。従来のモデルでは難しかった重複発話や割り込みへの対応が可能になり、遅延の少ない全二重の対話が実現。
言語・LLM

【jina-embeddings-v3】LoRAアダプターを導入し最大8192トークン処理可能に!

多言語対応のテキスト埋め込みモデル「jina-embeddings-v3」を提案。特定のタスクに最適化されたLoRAアダプターを導入し、効率的に高品質な埋め込みを生成できるようになり、多言語データや長文検索タスクでのパフォーマンスが向上し、実用的な利用が可能となっています。
言語・LLM

TransformerにCoTを導入することで全ての推論問題を解決できる!

この論文では、Transformerに「Chain of Thought(CoT)」を導入することで、従来の並列処理が得意なTransformerに複雑な計算能力を持たせる方法を提案しています。この手法によって、複雑な問題の解決が可能となり...
言語・LLM

小規模データから十分な知識獲得が可能な継続事前学習がスタンフォード大より提案される

この論文は、小規模データから効果的に知識を学ぶための新しい手法「合成継続事前学習」を提案しています。限られたデータでも多様な知識をモデルに学習させ、高精度な質問応答や命令追従が可能になりました。論文:Synthetic continued ...
画像

【OmniGen】画像生成や編集などの多様なタスクを1つのモデルで処理!

この論文では、OmniGenという新しい画像生成モデルを提案しています。OmniGenは、従来のモデルが個別に対応していたテキスト生成や画像編集などの多様なタスクを、一つのフレームワークで統一的に処理することを可能にし、追加のモジュールを必要とせず、多様な条件下で効率的かつ柔軟な画像生成が実現。
論文解説

【EzAudio】1次元の波形データとDiTで効率かつ高品質な音声を生成!

この論文では、テキストから音声を生成する「EzAudio」という新しいモデルを提案。従来のモデルが抱えていた品質や計算コストの課題を克服するため、1次元の波形データを利用した効率的なTransformerモデルを開発し、計算コストを削減して高品質な音声生成が可能となりました。
言語・LLM

【MobileLLM】スマホ上でも高性能に動作する小型の言語モデル!

この論文では、モバイルデバイス向けに最適化された小型の大規模言語モデル「MobileLLM」を提案しています。従来の大規模モデルの高コストと遅延を克服し、低リソース環境でも高い精度を維持できる設計が可能となりました。
画像

【InstantDrag】ドラック指示するだけで画像を微修正できる編集AI

画像編集の新しい手法である「InstantDrag」を提案しています。この手法は、ユーザーが指定したドラッグ操作に基づいて、画像をインタラクティブかつ高速に編集できる技術です。特に動画データセットを用いた訓練によって、現実世界の動的な画像編集に対応しています。
言語・LLM

LLMには科学研究のアイデアを生み出す能力がある?研究者は無くなるのか

本記事で解説する論文の内容は、「LLMに新しいアイデアを生む能力があるのか」を検証したもの。