音声

論文解説

高速な音声生成TangoFlox!Flox変換とCLAPランク付け最適化

この論文では、高速・効率的な音声生成技術「TangoFlox」を開発。オープンデータセットを活用して柔軟性と音質を向上。流れ変換技術とCLAPランク付け最適化を採用し、高品質な音声生成を実現。
論文解説

【Moshi】重複発話や割り込み対応が可能な音声対話モデル!遅延の少ない全二重の対話が実現

この論文では、Moshiというリアルタイム音声対話モデルを提案しています。Moshiは、音声から直接音声を生成する技術を用いることで、自然な会話体験を提供します。従来のモデルでは難しかった重複発話や割り込みへの対応が可能になり、遅延の少ない全二重の対話が実現。
論文解説

【EzAudio】1次元の波形データとDiTで効率かつ高品質な音声を生成!

この論文では、テキストから音声を生成する「EzAudio」という新しいモデルを提案。従来のモデルが抱えていた品質や計算コストの課題を克服するため、1次元の波形データを利用した効率的なTransformerモデルを開発し、計算コストを削減して高品質な音声生成が可能となりました。