データセット

データセット

【BoostStep】LLMの数学的な推論能力を大幅向上させる手法

数学推論能力を向上させる新手法「BoostStep」を提案。推論プロセスを細かく分解し、各ステップで適切な例を示す学習法を採用。複数の数学ベンチマークで実証済みの性能と誤り率低下を確認。
データセット

競技プログラミング向けベンチマーク「CodeELO」登場

競技プログラミングの新しいベンチマーク「CodeELO」を提案。Eloレーティングを用いてモデルと人間のパフォーマンスを比較し、言語理解能力や推論能力を詳細に評価。新たな競技環境での能力を測定可能。
データセット

時系列データ解析のための生成モデル「PaD-TS」

新しいモデル「PaD-TS」を紹介。時系列データ生成で構造とグループ特性を考慮し、他モデルを上回るCCスコアとFDDSスコアを達成。生成データは予測や分類タスクの精度向上に貢献!
データセット

GPT-4で地理情報推論力を評価するデータセット「MapEval」の提案

新データセット「MapEval」を提案し、地理空間推論能力を評価。リアルな地理情報を基にした新たなLLM評価方法を確立。最新のGPT-4等で性能を検証し、課題を発見する試み。
データセット

YouTubeの教育動画データセットで視覚質問の応答性能を向上

この研究では、YouTubeの教育動画を元にしたマルチモーダルデータセットを構築し、音声認識や字幕同期を用いて説明文を生成するパイプラインを開発。提案データセットは視覚質問応答タスクの性能を向上させることに成功。
オープンソース

【CORAL】会話における複数回のやり取りデータを含むRAGのベンチマーク

この論文では、多数の会話を含む新しいベンチマーク「CORAL」を提案し、RAGシステムの性能を評価しています。Wikipediaの階層構造を活用して自動的に会話データを生成し、複数ターンの対話における検索・生成・引用の精度を測定できるようになりました。