EvoEmbeddingとは？逐次更新される潜在記憶で長文脈検索を刷新する埋め込みモデル

逐次更新される潜在メモリを持ち、同じクエリでも文脈に応じて検索対象を動的に変える「進化型埋め込み」を提案
Qwen3-Embedding-8BやKaLM-Embedding-Gemma3-12Bといった大規模モデルを長文脈ベンチマーク全体で上回り、訓練ウィンドウの10倍長い文脈への汎化も実証
RAGパイプラインに組み込むだけで既存のエージェント記憶システムを超える性能を発揮し、追加トークンコストがゼロという実用的な優位性も持つ

研究の背景

大規模言語モデル（LLM）を使ったシステムが普及するにつれ、長い会話履歴や文書群から必要な情報を素早く引き出す「長文脈検索」の重要性が増しています。検索拡張生成（RAG）や自律エージェントの記憶システムがその代表例です。

こうした用途で広く使われるのが埋め込みモデル（テキストを数値ベクトルに変換するモデル）ですが、従来のモデルには根本的な制約があります。テキストの断片（セグメント）を孤立した単位として処理するため、それぞれが独立したベクトルになってしまいます。文書の前半で述べた内容が後半のクエリに影響を与えるような、文脈が動的に変化するシナリオには本質的に対応できません。

たとえば「昨日どこへ行ったか」と聞かれたとき、静的モデルは「昨日」という言葉の意味を履歴の文脈なしに処理します。一方で長期パーソナライゼーション（利用者の好みが会話を通じて変わっていく設定）や時系列的な出来事の追跡では、どのセグメントを「最新の状態」として返すかが刻々と変わります。

EvoEmbeddingの提案手法

本論文が提案する EvoEmbedding は、セグメントを順番に処理しながら「潜在メモリ（Latent Memory）」を継続的に更新し、そのメモリを各セグメントの埋め込み生成に利用します。同じセグメントでも、それ以前に処理した文脈が変われば、生成されるベクトルも変化します。これが「進化型（Evolvable）」という名前の由来です。

図1: EvoEmbeddingの全体構造。各ステップで「メモリ進化」と「表現生成」を並列に実行する。LLMが現在のセグメントを圧縮して過去のメモリと統合し、FIFOキュー方式の潜在メモリを更新する（左）。更新された潜在メモリと現在のセグメントを組み合わせて文脈対応の埋め込みを生成する（右）。

アーキテクチャは2つの並列処理から成ります。一方はメモリ進化で、LLMが現在のセグメントを圧縮し、前ステップのメモリと統合してFIFO（先入れ先出し）方式のキューに書き込みます。もう一方は表現生成で、蓄積された潜在メモリと現在のセグメントを組み合わせて検索用ベクトルを出力します。

表現崩壊（全ベクトルが同じ方向に収束してしまう問題）を防ぐためのメモリキュー設計も工夫されており、学習時にはセグメントをまとめてバッチ処理する「セグメントバッチング」技術で訓練速度を3.8倍に高速化しています。

EvoTrain-180Kデータセット

EvoEmbeddingの学習には、研究チームが新たに構築した EvoTrain-180K というデータセットが使われます。動的な文脈を含む長文脈検索に特化したデータが180,000件収録されています。

図2: EvoTrain-180Kの構築パイプライン。多様なドメイン・フォーマット・長さの生コンテキストを用意し（1）、LLMと40以上のテンプレートで動的なQ&Aを生成し（2）、正例・負例ラベリングとノイズ除去で最終データを整形する（3）。

構築は3段階で進みます。まず多様なドメイン・フォーマット・長さの生テキストを収集し、次にLLMと40種類以上のテンプレートを使って意味的・推論的な質問を生成します。最後に正例・負例のラベリングとノイズ除去（幻覚や文脈非依存の質問の除去）を実施します。文脈長やセグメント数の分布が意図的に多様化されており、様々な長さの文書に対応できるよう設計されています。

実験結果

EvoEmbeddingは0.8B・2B・4Bのモデルサイズで評価されました。長文脈検索と生成タスクを合わせた10のベンチマークで、Qwen3-Embedding-8BやKaLM-Embedding-Gemma3-12Bといったパラメータ数で大幅に上回る大規模モデルを全体的に超える性能を達成しています。

特筆すべきは汎化性能です。訓練時に使用した文脈ウィンドウより10倍長い文脈を持つタスクに対しても性能が維持されており、実環境での長文書処理に直接適用できる実用性を示しています。

エージェント記憶システムへの応用でも優位性が確認されました。LongMemEvalベンチマークでは、EvoEmbedding-4Bを使った素朴なRAGパイプラインが、明示的な記憶構築に大きなトークンコストを要する既存の記憶ベースラインを上回りました。LLMのハルシネーション対策としても重要な検索精度の向上が、追加コストなしに実現されています。

図3: （左）同一クエリに対して、静的モデルは時代遅れの結果を返すのに対し、EvoEmbeddingは文脈の変化に応じた適切なセグメントを返す。（右）LongMemEvalでは、EvoEmbedding-4BをベースにしたRAGが既存の記憶ベースラインを上回り、トークンオーバーヘッドゼロで最高性能を達成する。

時系列クエリへの感度

「最初に〇〇について述べたのはどこか」「最後に言及したのはどこか」といった時系列的なクエリに対する感度も検証されています。EvoEmbeddingは「最後に」というキーワードに対しては時系列の末尾に近いセグメントの類似度が高くなり、「最初に」というキーワードに対しては冒頭付近のセグメントが浮かび上がる挙動を示しました。静的モデルの表現では時系列の意味が埋め込みに反映されず、クエリと全セグメントの表現が混在してしまいますが、EvoEmbeddingの潜在空間は時間的な意味を適切に分離できています。

まとめと今後の展望

EvoEmbeddingは、静的な埋め込みモデルが抱える「文脈の変化に追従できない」という根本的な制約に対して、潜在メモリの逐次更新という明快な解法を提示しました。パラメータ数が少なくても大規模モデルを凌ぐ性能を示しており、既存のRAGパイプラインにそのまま組み込めるため実装コストも低く抑えられます。

課題としては、処理が順番依存になるためセグメントを並列処理しにくい点が挙げられます。また潜在メモリのキューサイズが固定されているため、極端に長い文書でどこまで遠い過去の情報を保持できるかという限界も残っています。自律エージェントや長期対話システムの普及とともに、動的な文脈に対応できる埋め込み技術の需要は今後さらに高まると考えられ、EvoEmbeddingの枠組みはその重要な出発点になりそうです。

EvoEmbedding: Evolvable Representations for Long-Context Retrieval and Agentic Memory

Abstract page for arXiv paper 2606.21649: EvoEmbedding: Evolvable Representations for Long-Context Retrieval and Agentic Memory

arxiv.org

逐次更新される潜在メモリを持ち、同じクエリでも文脈に応じて検索対象を動的に変える「進化型埋め込み」を提案
Qwen3-Embedding-8BやKaLM-Embedding-Gemma3-12Bといった大規模モデルを長文脈ベンチマーク全体で上回り、訓練ウィンドウの10倍長い文脈への汎化も実証
RAGパイプラインに組み込むだけで既存のエージェント記憶システムを超える性能を発揮し、追加トークンコストがゼロという実用的な優位性も持つ