エージェント

強化学習

社会的AIエージェント問題解決の手法「SDPO」でマルチターン会話の性能向上

新手法SDPOはエージェントの問題を特定して最適化を図り、各セッションの特定セグメントに注目して精密なフィードバックを提供。他の手法より性能が向上し、社会的AIエージェントのトレーニングに効果的です。
言語・LLM

【A3】モバイルアプリ上で動作するエージェント評価

モバイルアプリのGUIでのエージェント評価を改善する「A3フレームワーク」を提案。OCRやLLMを用いた評価関数を導入し、AppAgentが複雑なタスクでLLMの限界を超える可能性を示唆。