コード生成

言語・LLM

【CodeRM-88】コード生成評価を改善する新手法

新手法CodeRM-88を提案し、コード生成モデルの評価を改善。ユニットテストの自動生成と動的スケーリングにより難解な問題でも高い性能を発揮、既存手法に比べ大幅な精度向上を実現しました。
ニュース

AIによるコード生成の性能向上と課題を探る

データサイエンティストのマックス・ウルフ氏が、AIに「もっといいコードを書いて」と繰り返し要求し、コードの性能を測定。最終的に100倍の高速化を達成も、バグ増加。人間の介入が必要と指摘。
言語・LLM

自己呼び出し関数の生成能力を測るベンチマークでLLMのコーディング性能向上へ!

自己呼び出し関数生成の新しいベンチマーク「HumanEval Pro」「MBPP Pro」を提案。最新のLLMはこの課題で苦戦中。特に非指示調整型モデルで低精度を示すが、新ベンチマークはエラー削減と評価ツールとして有用。