- 協調を高めるために、エージェント間で記憶を共有する新手法SRMTを開発
- SRMTはエージェントが共有メモリを用いて高度な意思決定を行い、報酬最大化を学習
- シミュレーション実験でSRMTは他の手法を上回る成功率と汎用性を確認
本記事で使用している画像は論文中の図表、またはそれを参考に作成した画像を使用しております。
本論文の概要
この論文では、複数エージェント間の協調を目的とした新しい手法「Shared Recurrent Memory Transformer(SRMT)」が提案されています。多エージェント強化学習(MARL)の課題として、それぞれのエージェントが限られた視野内の情報のみを基に意思決定を行い、全体の最適解を達成することが挙げられます。SRMTは、Transformer構造を活用してエージェント間での共有メモリを実現し、これにより協調性と安定性を向上させています。
SRMTは主に、部分的に観察可能なMarkov決定過程(POMDP)の設定で動作し、エージェントが共有メモリを通じて状況を伝える設計になっています。それぞれのエージェントは、現在の観測結果や過去のメモリの情報を利用することで、より洗練された意思決定が可能です。さらに、このフレームワークでは、エージェントが環境内でどのように報酬を最大化するかを学習するよう調整されています。
実験では、POGEMAというシミュレーション環境を用いてSRMTの性能を評価しました。この環境では、迷路や多様な障害物配置を持つ地形におけるエージェントの移動をシミュレーションします。その結果、SRMTは従来の手法(例えば、MAMBAやQPLEXなど)に比べて高いタスク成功率を示し、特に障害物密度が高い設定やエージェント間の複雑な協調が求められる場面において優れた性能を発揮しました。また、SRMTはスケーラビリティにも対応しており、エージェント数が増加しても効率的にタスクを遂行できることが確認されています。
さらに、SRMTは長期的な汎化能力にも優れており、未経験の状況やより長い経路を含む環境でも高い性能を維持しました。これにより、さまざまなタスクに適応可能な汎用性が示されています。この取り組みは、強化学習ベースのマルチエージェントシステムを改良し、自律的な意思決定や計画をより現実的かつ効率的に実現できる可能性を示唆しています。
図表の解説

この図は、Shared Recurrent Memory Transformer (SRMT)のアーキテクチャを示しています。SRMTは、個々のエージェントのメモリを一つにまとめ、クロスアテンションを通じて他のエージェントにグローバルに公開します。このプロセスにより、エージェントたちは過去の観察や他のエージェントのメモリにアクセスすることができ、行動を調整する助けとなります。図の左では、各エージェントが観察情報を取得し、その後コア部分で処理され、アクションの決定に繋がります。右側のSRMTコアでは、自己アテンションと交差アテンションを介して、エージェントの更新されたメモリが生成されます。これにより、多エージェントの協調行動が強化されます。

表2は、マルチエージェント強化学習で使用される異なる報酬関数の一覧を示しています。この表は、エージェントが目標に達したとき、目標に向かって進むとき、その他の行動を取ったときに与えられる報酬の値を示しています。具体的には、目標に到達するとすべてのタイプで+1の報酬が与えられます。目標に向かって進む行動に対しては、「ディレクショナル」では+0.005が与えられ、「密」と「移動ネガティブ」ではマイナスの値が与えられています。その他の行動、例えば方向とは異なる動きには、「密」と「ディレクショナルネガティブ」で-0.01、「移動ネガティブ」では移動時-0.01と保持時-0.005のペナルティがあります。これらの異なる報酬設定は、エージェントの行動を試行錯誤し、より優れた協調行動を促進するために使用されます。

この画像は、マルチエージェント協調を試験する環境の例を示しています。図2には、6つの異なる環境が描かれています。ボトルネック(a)では、エージェントが狭い通路を通過する必要があります。迷路(b)やランダム(c)の環境は、エージェントの経路探索能力を評価するための複雑さを追加します。パズル(d)、倉庫(e)、およびMovingAI(f)は、複数のエージェントが計画を調整し、一般化能力を検証するための異なるタイプの課題を提供します。これらの環境は、POGEMAベンチマークの一部として、さまざまな地図と問題サイズに対する評定方法の一般化能力をテストすることが可能です。

この表は、異なる報酬関数を持つ多エージェント強化学習のシナリオを示しています。ここでは、エージェントがゴールを達成した場合、ゴールに向かって移動した場合、またはそれ以外の他のアクションをとった場合の報酬値が示されています。 – **方向指向(Directional)**: ゴールに到達すると+1の報酬が与えられ、目標に近づくときにわずかな報酬(+0.005)が与えられます。 – **スパース(Sparse)**: ゴールに到達した場合のみ+1の報酬が与えられ、中間報酬はありません。 – **密(Dense)**: ゴール到達で+1だが、他のアクションに対してはペナルティ(-0.01)。 – **方向ネガティブ(Directional Negative)**: ゴールのカウント後にペナルティ。 – **移動ネガティブ(Moving Negative)**: ゴール到達には+1。無駄な動きにはペナルティが適用されます。 この報酬設定は、エージェントの行動を最適化し、ゴールを効率的に達成するための動機づけを提供します。

図3はSRMT(Shared Recurrent Memory Transformer)が異なる報酬関数を用いてBottleneck Taskをどのように解決するかを示しています。CSR(Cooperative Success Rate)やISR(Individual Success Rate)では高い値が良く、SoC(Sum of Costs)では低い値が良いとされます。 この図では、SRMTがDirection(目標へ向かうと得られる報酬)で効果的に学習し、他の手法(MAMBA, QPLEXなど)よりも高いパフォーマンスを示しています。各柱の色は異なる手法を表し、エラーバーは95%信頼区間を示しています。 「Moving Negative」や「Sparse」といった難しい報酬設定においても、SRMTは高い性能を発揮し、メモリ共有が効果的に機能していることが確認できます。この結果として、SRMTは他のベースラインに比べて優れた協調性を持っていると結論づけられています。

図4は、SRMTという手法が最大1000の長さの回廊に対して一般化できることを示しています。SRMTは、3から30のセルサイズの回廊で訓練された後、1000までの長い回廊で評価されました。Sparse報酬では、SRMTが400までの回廊長で良好なパフォーマンスを示し、RMTに次ぐ結果となっています。Moving Negative報酬では、SRMTがすべてのメトリクスで最も高いパフォーマンスを示しています。図中のグラフは、協力的成功率(CSR)、個別成功率(ISR)、コスト合計(SoC)を回廊の長さに対する指標として示しており、SRMTがさまざまなタスクで競争力を持つことを示しています。シェーディングされた領域は95%の信頼区間を示します。

図5は、異なる環境においてSRMTが他のMARL手法を上回ることを示しています。具体的には、MazesでのSRMTのトレーニングは、他の未見のマップでも高い汎化性能を発揮しています。SRMTは、Warehouse環境を除くすべてのマップでMAMBAやQPLEXなどのMARLのベースラインよりも良い性能を示しています。また、64または128エージェントでの混合トレーニング(SRMT 64-128)は、手法の汎化能力に影響を与えません。特にWarehouse環境では、Followerのヒューリスティックなパス検索を基にした報酬機能を持つSRMT(SRMT-FlwrPlan)が、他の手法よりも高い平均スループットを示しています。誤差バーは95%の信頼区間を示しています。

この表は、マルチエージェント強化学習の研究においてテストされた報酬関数を示しています。エージェントが目標を達成した場合、目標に向かって進んだ場合、およびその他の行動を取った場合の報酬がリストされています。 – 「On goal」列は、目標を達成した場合に+1の報酬が与えられることを示しています。 – 「Move towards goal」列では、目標に近づく行動に対して報酬がドメインごとに異なります。例えば、Directionalでは+0.005、Moving Negativeでは-0.01を示しています。 – 「Else」列は、目標に向かっていない行動に対するペナルティを表しています。Sparseでは0で、Denseでは-0.01のペナルティがあります。 このような異なる報酬設定をテストすることで、エージェント間の協力と学習の効果を評価できます。