強化学習 社会的AIエージェント問題解決の手法「SDPO」でマルチターン会話の性能向上 新手法SDPOはエージェントの問題を特定して最適化を図り、各セッションの特定セグメントに注目して精密なフィードバックを提供。他の手法より性能が向上し、社会的AIエージェントのトレーニングに効果的です。 2025.01.29 強化学習論文解説