強化学習 社会的AIエージェント問題解決の手法「SDPO」でマルチターン会話の性能向上 新手法SDPOはエージェントの問題を特定して最適化を図り、各セッションの特定セグメントに注目して精密なフィードバックを提供。他の手法より性能が向上し、社会的AIエージェントのトレーニングに効果的です。 2025.01.29 強化学習論文解説
言語・LLM 【A3】モバイルアプリ上で動作するエージェント評価 モバイルアプリのGUIでのエージェント評価を改善する「A3フレームワーク」を提案。OCRやLLMを用いた評価関数を導入し、AppAgentが複雑なタスクでLLMの限界を超える可能性を示唆。 2025.01.25 言語・LLM論文解説