MRAgentとは？記憶の「再構成」でLLMエージェントの長期記憶を最大23%改善する新手法

人間の記憶科学に倣い、LLMが推論しながらグラフを能動的に探索する「記憶の再構成」を実現したMRAgentをICML 2026で発表
会話履歴をCue-Tag-Contentの3層グラフに整理し、多段階推論で多ホップ質問にも連鎖的に対応できる仕組みを構築
LoCoMoで最大23.3%、LongMemEvalで約32.8%の精度向上を達成しながら、A-Memと比較してトークン消費を約5.4分の1に削減

研究の背景と課題

AIチャットボットやエージェントが長期間にわたって会話を続けると、膨大な過去のやりとりを参照しながら回答しなければならない場面が増えます。従来の多くのシステムはRAG（Retrieval-Augmented Generation、検索拡張生成）と呼ばれる方式を採用しており、クエリに意味的に近い記憶を一度に引き出す「受動的な検索」を行います。

この方式には根本的な限界があります。たとえば「Aさんが夏に参加したトーナメントで知り合ったBさんは、その後どんな活動をしていましたか？」のような複数のステップを踏む質問（多ホップ質問）では、最初のクエリだけでは必要な記憶にたどり着けません。途中の推論で得られた中間情報「夏」「トーナメント」「Bさん」を手がかりにして初めて関連記憶が見つかるからです。

人間の記憶研究では、記憶は固定的に保存されて検索されるのではなく、想起の文脈によって能動的に「再構成」されることが分かっています。シンガポール国立大学のShuoらは、この認知科学の知見をLLMエージェントに適用した手法「MRAgent」をICML 2026に発表しました。

図1: 受動的検索（左）と能動的記憶再構成（右）の比較。MRAgentは推論を通じてグラフを探索し、必要な記憶を段階的に再構成します。

記憶の仕組み：Cue-Tag-Content

MRAgentの核心は、会話履歴を「Cue-Tag-Contentグラフ」として整理することにあります。3種類の情報がグラフのノードとなりエッジで結ばれ、関連情報が意味的に連鎖したネットワークを形成します。

Cue（手がかり）は人名・場所・属性など細かいキーワードです。Tag（タグ）はそのキーワードに関連するトピックや意味的な橋渡し情報であり、CueとContentをつなぐ中間層として機能します。Content（内容）は実際の記憶の詳細、すなわちエピソード記憶や意味記憶の具体的な本文です。

このグラフ構造により、直接的な類似度では見つからない関連記憶でも、タグを経由した意味的な連鎖をたどって到達できます。人間が「あのとき」「あの場所で」という文脈を手がかりに記憶を呼び起こすプロセスと対応する設計です。

図4: MRAgentのアーキテクチャ全体像。(a) 会話からCue-Tag-Contentグラフを構築するメモリ構築フェーズ、(b) クエリに対してLLMが反復的に推論しグラフを探索する能動的再構成フェーズ。

能動的記憶再構成の動き

記憶を取り出すときの動作も従来手法と大きく異なります。受動的検索がクエリとの類似度で記憶を一括取得するのに対し、MRAgentはLLMを使ってグラフを段階的に推論します。

まず最初の手がかり（Cue）を起点にタグを選択し、そのタグから関連するContentを取り出します。取り出した情報のなかに次の手がかりが含まれていれば、それを新たなCueとして再びグラフを探索します。このサイクルを繰り返すことで、最初のクエリだけでは届かなかった深い記憶にもたどり着けます。探索の打ち切り条件を設けることで、組み合わせ爆発も防いでいます。

図2: 受動的検索と能動的再構成の対比例。受動的検索はゲームトーナメントに関する記憶のみを取得するが、能動的再構成は推論で「7月」という時間的手がかりを導出し、Carolineの対応する活動まで特定します。

実験結果

MRAgentは長期会話評価の代表的なベンチマーク2種で性能を検証しました。

LoCoMo（複数セッションにわたる長期会話理解）では、Geminiバックボーン使用時のLLM評価スコアで84.21を達成しました。最良ベースラインのMem0（68.31）との比較で相対改善は23.3%です。Claudeバックボーンでも88.32を記録しています。特に複数の推論ステップが必要な多ホップ質問や、時系列を追った質問で顕著な改善が見られました。

LongMemEvalでは72.95を記録し、最も近いベースラインのMemoryOS（54.92）からの相対改善は約32.8%に達しました。

計算コストの面でも優れた結果が出ています。比較したシステムのうちLangMen（約327万トークン）、A-Mem（約63万トークン）などと比べ、MRAgentのトークン消費は約11.8万トークンに留まります。A-Memとの比較で約5.4倍の効率です。グラフ探索の範囲を推論によって絞り込むため、全ての記憶を一括処理する必要がなく、精度とコストを両立できます。

なおEvoArenaのようなエージェント評価フレームワークと組み合わせることで、より動的な環境での記憶能力を継続的に測定する研究も今後期待されます。