言語・LLM 自己呼び出し関数の生成能力を測るベンチマークでLLMのコーディング性能向上へ! 自己呼び出し関数生成の新しいベンチマーク「HumanEval Pro」「MBPP Pro」を提案。最新のLLMはこの課題で苦戦中。特に非指示調整型モデルで低精度を示すが、新ベンチマークはエラー削減と評価ツールとして有用。 2025.01.07 言語・LLM論文解説