言語・LLM 【CodeRM-88】コード生成評価を改善する新手法 新手法CodeRM-88を提案し、コード生成モデルの評価を改善。ユニットテストの自動生成と動的スケーリングにより難解な問題でも高い性能を発揮、既存手法に比べ大幅な精度向上を実現しました。 2025.01.26 言語・LLM論文解説
言語・LLM 【A3】モバイルアプリ上で動作するエージェント評価 モバイルアプリのGUIでのエージェント評価を改善する「A3フレームワーク」を提案。OCRやLLMを用いた評価関数を導入し、AppAgentが複雑なタスクでLLMの限界を超える可能性を示唆。 2025.01.25 言語・LLM論文解説