データセット

データセット

GPT-4で地理情報推論力を評価するデータセット「MapEval」の提案

新データセット「MapEval」を提案し、地理空間推論能力を評価。リアルな地理情報を基にした新たなLLM評価方法を確立。最新のGPT-4等で性能を検証し、課題を発見する試み。
データセット

YouTubeの教育動画データセットで視覚質問の応答性能を向上

この研究では、YouTubeの教育動画を元にしたマルチモーダルデータセットを構築し、音声認識や字幕同期を用いて説明文を生成するパイプラインを開発。提案データセットは視覚質問応答タスクの性能を向上させることに成功。
マルチモーダル

医療画像解析マルチモーダルLLMとデータセットMed-MAT

医療画像解析に役立つマルチモーダルLLMの活用が進展中。大規模ラベル付きデータセット「Med-MAT」を構築し、プロンプトエンジニアリングとTransformerモデルで精度向上を実現。医療現場でのAI活用がさらに広がる可能性。
オープンソース

【CORAL】会話における複数回のやり取りデータを含むRAGのベンチマーク

この論文では、多数の会話を含む新しいベンチマーク「CORAL」を提案し、RAGシステムの性能を評価しています。Wikipediaの階層構造を活用して自動的に会話データを生成し、複数ターンの対話における検索・生成・引用の精度を測定できるようになりました。
言語・LLM

【WACK】LLMのハルシネーションを2種類に区別する手法!幻覚の種類に応じた対処が可能に

LLMのハルシネーションを「知識不足による誤り」と「知識があるのに誤る場合」の2つに分類し区別して検出する手法WACKを提案。モデルの内部状態を分析することで2種類のハルシネーションが異なる形で表現されていることを実証し、モデル固有のデータセットを使用することでハルシネーション検出の精度が向上。