- 行動反省と改善が可能な学習フレームワークAgent-Rを提案
- Monte Carlo Tree Searchを用いて成功と失敗を分析し修正するプロセス
- 3つの環境で高い性能を発揮し、新たなタスクへの一般化能力を示す
論文:Agent-R: Training Language Model Agents to Reflect via Iterative Self-Training
本記事で使用している画像は論文中の図表、またはそれを参考に作成した画像を使用しております。
本論文の概要
この論文では、言語モデルエージェントが自らの行動を反省し改善する能力を持つ新しい学習フレームワーク「Agent-R」を提案しています。従来の手法ではエージェントが環境内で一度行った間違いを反映し、次の試行で活用することが難しかったのに対し、本手法は反復型の自己訓練プロセスを通じてこの課題を解決します。
Agent-Rのトレーニングには以下の2つの主要なフェーズが含まれます。第一に、Monte Carlo Tree Search(MCTS)を利用して良好な軌跡(成功を収めた行動の記録)と不良な軌跡(間違いや誤った行動の記録)を収集します。次に、これらのデータを利用し、不良な軌跡を改善するための「修正軌跡」を設計します。この修正軌跡を通じてエージェントの反省と自己修正能力を高め、意図した結果により近い行動を取るようにモデルを強化します。
実験は3つの異なるインタラクティブな環境(WebShop、SciWorld、TextCraft)で行われ、Agent-Rがベースラインモデルを大幅に凌駕することが確認されました。具体的には、多数の試行で誤りを減らし、成功率を向上させることがわかりました。また、Agent-Rによる反復型呼び戻し訓練は、人間による修正軌跡を使う場合と同等、またはそれ以上の性能を示しました。
さらに、Agent-Rはタスク間転移能力(複数タスクでの一般化能力)が優れており、特に後の学習回でさらに性能を向上させることができます。これにより、従来の直接的な指導データの依存を減らし、モデルがより効率的に新たな状況に適応するための可能性を示しています。
この研究は、LLMなどの大規模モデルが複雑なユースケースで自己改善能力を持つアプローチとして、高い有用性を示しています。特に、実際の利用環境での挙動最適化やエラー回避に寄与する成果を挙げています。
図表の解説

この図は、論文「Agent-R: Training Language Model Agents to Reflect via Iterative Self-Training」のメカニズムを2つのフェーズに分けて説明しています。フェーズIでは、MCTS(モンテカルロ木探索)とモデル主導の反省メカニズムを用いて、誤った軌跡を修正するための「修正トラジェクトリ」を生成します。この修正トラジェクトリは、失敗した行動を特定し、それを訂正するための道筋を示します。 フェーズIIでは、収集した修正トラジェクトリを使ってエージェントを訓練し、改善を促します。この反復的な自己訓練により、エージェントは間違いを早期に検出し、修正する能力を向上させ、ループに落ち込むことを防ぎます。このプロセスは、エージェントのパフォーマンスを向上させるために継続的に繰り返されます。

この表は、3つのエージェント対話環境におけるシミュレーションの統計を示しています。WebShop、SciWorld、TextCraftというデータセットに対して、異なる選択閾値に基づいてMCTS(モンテカルロ木探索)を用いることで、異なる数の修正データと良好なデータを収集しています。 各環境でのシミュレーション数に応じて、MCTSが1回目、2回目、3回目の反復でそれぞれ異なる数の修正データと良好なデータが得られています。例えば、WebShopでは、最初の反復で5500の修正データと600の良いデータが得られ、3回目の反復では9000の修正データと2000の良いデータとなっています。テストサイズも記載されており、各環境での評価に使用されるデータの量を示しています。

この画像は、言語エージェントが長い作業の過程でエラーを修正するのが難しい状況を示しています。特に、「水を沸かす」タスクの過程で誤った進行ルートを選んでしまうと、長い行動の中でどのように修正するか悩む場面を示しています。このような誤りはループに陥りがちで、エージェントが目的を達成できない原因になります。ただし、Agent-Rと呼ばれるフレームワークを使うことで、エージェントはこれらの誤りをリアルタイムに検出して解決できるようになります。Agent-Rは、過去の誤った行動を修正し、より効果的に問題を解決できるよう支援する仕組みです。これによって、エージェントは長いタスクを成功裏に達成しやすくなります。

この画像は、3つの異なるインタラクティブ環境(WebShop、SciWorld、TextCraft)において、異なる訓練経過が繰り返しの中でどのように進展するかを示しています。グラフは、「Agent-R」を使った場合と「Direct-Revision」を使った場合の平均最終スコアを比較しています。結果は、「Agent-R」を用いることで、各環境で繰り返しが進むごとにスコアが向上することを示しています。「Vanilla」状態から始まり、繰り返しが進むにつれてスコアが上昇し、最終的には「Optimal」や「Optimal + Good」のベースラインを超える結果を示しています。特に、「Agent-R」は、各環境でより早期にエラーを検出し修正する能力を強化し、より良い学習効率を達成しています。

この表は、異なる訓練方法を3つのインタラクティブな環境でテストした結果を示しています。「Direct-Revision + Good Trajectory」と「Trajectory from Agent-R」という2つのデータセットに対し、単一と複数の方法で複数の反復を通じて実行した結果が載っています。「Direct-Revision + Good Trajectory」では、訓練の中盤から終盤にかけてパフォーマンスが向上していますが、「Trajectory from Agent-R」はさらに優れた結果を示しています。特に最終反復では、平均点が最高の70.71に達し、エージェントが誤った行動を認識し、より早期に修正できることを示しています。これによりエージェントの学習効率が向上し、より高品質な訓練が可能となっています。

この図は、3つのインタラクティブな環境(SciWorld、WebShop、TextCraft)におけるアクションの繰り返し長の平均回数を示しています。図から、複数のトレーニング手法(Vanilla、Optimal、Agent-Rの複数の反復)におけるパフォーマンスの変化が観察できます。 SciWorldでは、VanillaとOptimalは高めの繰り返しカウントが維持されていますが、Agent-Rによって繰り返しの長さが徐々に減少しています。特に初期の反復で顕著な改善が見られます。 WebShopについては、Vanillaでは比較的安定した低いカウントを示します。Agent-Rは反復するごとにさらに安定しています。 TextCraftでは、Agent-Rの反復により劇的に繰り返しの回数が減少し、これはモデルの改善を示しています。これにより、早期にエラーを検出し、訂正しやすくなることが示されています。

この図はLlama-3.1-8Bモデルが生成したエラートリジェクトリーの修正例を示しています。Agent-Rというフレームワークを使用し、モデルは自己反省を通じてエラーを認識し、修正するプロセスを実行します。例では、アシスタントがオンラインショッピングシステムで誤った検索をしたことを認識し、「リセットして再試行する」と判断します。この方法により、エージェントは誤った行動を早期に訂正し、より正確な結果を得ることができます。これにより、エージェントのエラーハンドリング能力が強化され、ループを避けつつ、より良いパフォーマンスが達成されます。

この画像は、Llama-3.1-8Bモデルが生成したウェブショップ環境での行動評価結果を示しています。この評価では、アダプティブトランジションポイントという手法を使っています。具体的には、エージェントの行動が「無効」と判定された理由として、「元の検索基準に合っていないため、行動が不適切である」と記述されています。その結果、「評価:不良」とされています。これは、エージェントが特定の条件や基準に従って効果的な行動を選べるようにするために、動的な自己評価メカニズムを用いている例です。この手法は、行動の質を改善し、誤った選択を早期に修正する能力を育成することを目的としています。