KVEraserとは？KVキャッシュの局所消去でプロンプトインジェクション除去を効率化する新手法

学習済みステアリング状態でKVキャッシュの対象区間だけを置き換え、フル再計算なしに有害文脈を局所消去する
文脈長1K→32KでフルRecomputeのレイテンシは17.6倍に増大するが、KVEraserはわずか24%増加のみで同等精度を維持
未見の長文書QAでも近似手法中最高精度を達成し、フル再計算より3〜4倍高速なパレートフロンティアを実現

研究の背景

大規模言語モデル（LLM）を長い文脈で使うとき、一度処理した内容はKVキャッシュ（Key-Valueキャッシュ）として保存され、後続の推論を高速化します。しかしこのキャッシュには厄介な問題があります。プロンプトインジェクション（悪意のある指示の埋め込み）、期限切れのツール出力、あるいは誤情報がキャッシュに残り続けると、その影響がモデルの応答に波及し続けるのです。

これを除去する最も確実な方法は、問題のある区間を取り除いてから文書全体を最初から再処理する「フル再計算」です。ところが、文脈長が伸びるほどこのコストは急増します。コンテキスト長が1Kトークン時のレイテンシを基準にすると、32Kトークンではフル再計算のレイテンシが17.6倍にまで膨らみます。リアルタイムのエージェント応用ではとても現実的とは言えません。

Four-panel illustration showing KVEraser application scenarios: top-left depicts prompt injection attack removed from cached context, top-right shows outdated tool output erasure, bottom-left shows misinformation removal, bottom-right shows sensitive data redaction. Each panel contrasts before and after erasing a highlighted span.

こうした背景のもと、今回紹介するKVEraserは「対象スパン（区間）のKVキャッシュだけをピンポイントで更新する」というアプローチを提案しています。ICML 2026 Workshopで口頭発表に採択された本手法は、精度と速度のバランスで新たな基準を打ち立てました。

KVEraserの仕組み

KVEraserの中心的なアイデアは、「消去対象スパンのKV状態を学習済みステアリング状態に置き換える」ことです。プレフィックス（前半部分）のキャッシュはそのまま再利用し、消去対象スパンのKV状態のみをステアリング状態で上書きします。その後、サフィックス（後半部分）のキャッシュだけを更新済みの情報に基づいて再計算します。文書全体を再計算するのでなく、消去が必要な区間だけを局所的に修正する仕組みです。

Horizontal pipeline diagram showing three stages connected by left-to-right arrows: left block labeled 'Prefix KV Cache' with snowflake icon indicating reuse as-is, center block labeled 'Erased Span' with fire icon showing KV states replaced by steering states via Eraser module, right block labeled 'Suffix' recomputed using the updated cache.

ステアリング状態をどう学習するかが、この手法の核心です。訓練は2段階で行います。第1段階は汎用事前訓練です。「あるスパンが存在する場合」と「そのスパンを除いた場合」の出力をできるだけ一致させるよう、スパン周辺の領域を使って汎用的なステアリング状態を事前学習します。これによりモデルは、消去対象区間の影響をゼロに近づける汎用的な能力を習得します。

第2段階はタスク固有の微調整です。プロンプトインジェクション除去や誤情報の削除など、個別の応用シナリオに合わせてさらに調整します。この2段階設計により、新しいタスクへの汎化性能も確保しています。なお、KVキャッシュの効率的な管理手法としては他にもTetherCacheのような訓練不要のアプローチがありますが、KVEraserは局所的な「消去」という固有の目的に特化して学習を行う点が異なります。

実験結果

論文では主に「ニードル消去」と「QAにおける事実的妨害因子の消去」という2つのシナリオで性能を評価しています。

ニードル消去タスクでは、文脈中に埋め込んだ特定の情報（ニードル）を消去してモデルが参照できなくなるかを測定します。KVEraserはコンテキスト長1K〜32Kの全域でフル再計算にほぼ匹敵する精度を達成しました。一方レイテンシは、フル再計算が1K時の基準から32K時に17.6倍に膨らむのに対し、KVEraserの増加はわずか24%にとどまっています。

Dual-panel comparison chart: left panel shows exact match accuracy (y-axis) across context sizes from 1K to 32K tokens (x-axis) for KVEraser, full recompute, and baseline methods — KVEraser line closely tracks full recompute; right panel shows corresponding latency growth where KVEraser remains nearly flat while full recompute rises steeply to 17.6x.

未見の長文書QAタスク（事実的妨害因子の消去）では、KVEraserは近似ベースライン手法の中で最高の精度を記録しました。フル再計算には精度でわずかに劣りますが、レイテンシはフル再計算の約3〜4分の1に抑えられています。これは精度と速度のトレードオフ（パレートフロンティア）において、KVEraserが最良の位置に立つことを意味します。

まとめと今後の展望

KVEraserは、LLMのKVキャッシュを局所的に書き換えるという新しい方向性を開いた手法です。プロンプトインジェクション除去や古いツール出力の廃棄、誤情報の削除といった実運用上の課題に対して、フル再計算を大幅に上回る速度で対処できることを示しました。

現時点の課題として、ドメイン外タスクへの完全な汎化はまだフル再計算には及びません。2段階の訓練パイプラインを整備するコストも存在します。今後はより少ないデータでの適応、複数スパンの同時消去、さらに長い文脈での安定性検証などが研究の焦点になるでしょう。LLMの安全な運用を支えるインフラ技術として、継続的な発展が期待される分野です。