言語・LLM 【WACK】LLMのハルシネーションを2種類に区別する手法!幻覚の種類に応じた対処が可能に LLMのハルシネーションを「知識不足による誤り」と「知識があるのに誤る場合」の2つに分類し区別して検出する手法WACKを提案。モデルの内部状態を分析することで2種類のハルシネーションが異なる形で表現されていることを実証し、モデル固有のデータセットを使用することでハルシネーション検出の精度が向上。 2024.11.03 言語・LLM論文解説
論文解説 【Moshi】重複発話や割り込み対応が可能な音声対話モデル!遅延の少ない全二重の対話が実現 この論文では、Moshiというリアルタイム音声対話モデルを提案しています。Moshiは、音声から直接音声を生成する技術を用いることで、自然な会話体験を提供します。従来のモデルでは難しかった重複発話や割り込みへの対応が可能になり、遅延の少ない全二重の対話が実現。 2024.09.24 論文解説音声
画像 【OmniGen】画像生成や編集などの多様なタスクを1つのモデルで処理! この論文では、OmniGenという新しい画像生成モデルを提案しています。OmniGenは、従来のモデルが個別に対応していたテキスト生成や画像編集などの多様なタスクを、一つのフレームワークで統一的に処理することを可能にし、追加のモジュールを必要とせず、多様な条件下で効率的かつ柔軟な画像生成が実現。 2024.09.21 画像論文解説