言語・LLM 【CodeRM-88】コード生成評価を改善する新手法 新手法CodeRM-88を提案し、コード生成モデルの評価を改善。ユニットテストの自動生成と動的スケーリングにより難解な問題でも高い性能を発揮、既存手法に比べ大幅な精度向上を実現しました。 2025.01.26 言語・LLM論文解説
ニュース AIによるコード生成の性能向上と課題を探る データサイエンティストのマックス・ウルフ氏が、AIに「もっといいコードを書いて」と繰り返し要求し、コードの性能を測定。最終的に100倍の高速化を達成も、バグ増加。人間の介入が必要と指摘。 2025.01.07 ニュース技術
言語・LLM 自己呼び出し関数の生成能力を測るベンチマークでLLMのコーディング性能向上へ! 自己呼び出し関数生成の新しいベンチマーク「HumanEval Pro」「MBPP Pro」を提案。最新のLLMはこの課題で苦戦中。特に非指示調整型モデルで低精度を示すが、新ベンチマークはエラー削減と評価ツールとして有用。 2025.01.07 言語・LLM論文解説