- AIリサーチエージェントが企業文書とウェブ検索を組み合わせると、検索クエリを通じて機密情報が意図せず外部に漏洩する危険がある
- タスク性能を高めるほど漏洩率が悪化するという反直感的な現象をServiceNow Researchが実証し、全テストモデルで頻繁な漏洩を確認した
- 強化学習ベースの手法PA-DRにより、タスク成功率をほぼ維持しながら漏洩率を34%から9.9%まで削減することに成功した
研究の背景と問題提起
企業内でRAG(Retrieval-Augmented Generation)を用いたAIエージェントの導入が加速している。社内文書を参照しながら外部ウェブを検索し、複雑なリサーチタスクをこなすこれらのエージェントは、業務効率化の観点から高い期待を集めている。
しかし、ServiceNow Researchのチームは2026年6月18日にarXivで公開した論文「MosaicLeaks: Can your research agent keep a secret?」(arXiv:2605.30727)において、このアーキテクチャに潜む深刻なプライバシーリスクを実証した。Alexander Gurung、Rafael Pardinas氏らが率いる研究チームは、個々には無害に見える検索クエリが積み重なることで、機密情報が外部サービスに漏洩するという「モザイク効果」を体系的に分析した。
モザイク効果とは何か
モザイク効果とは、個別には意味のない情報の断片が、複数組み合わさることで機密情報を再構成できてしまう現象を指す。例えば、プロジェクト名・担当者名・予算規模をそれぞれ別のクエリとして検索エンジンに送ると、ログを閲覧できる第三者はその組み合わせから機密プロジェクトの全容を把握できてしまう。
研究チームはこの問題を定量的に評価するため、企業文書の内容と外部検索を組み合わせる「マルチホップ質問応答」タスクを1,001チェーン設計した。複数ステップの推論を要するこれらのタスクでは、エージェントが段階的に情報を集めるたびに、クエリの内容が機密データを反映する形になる。
3種類の漏洩パターン
研究チームは漏洩の形態を3段階に分類している。まず「意図漏洩」は、敵対者がクエリログからエージェントのリサーチ目標自体を推測できる状態を指す。次に「回答漏洩」では、クエリの内容から特定の質問に対する答えが読み取れる。最も深刻な「完全情報漏洩」は、クエリを追跡するだけで機密の事実主張が成立する段階だ。
テストした全モデルで機密情報漏洩が頻繁に発生したことは、特定のモデルやアーキテクチャの問題ではなく、社内文書参照と外部検索を組み合わせる設計そのものに内在するリスクであることを示している。
「高性能化するほど漏洩が増える」という逆説
この研究で最も注目を集めた発見は、タスク性能と漏洩率の関係だ。タスク報酬のみで訓練したモデルは、タスク成功率が59.3%まで向上する一方、漏洩率は51.7%にまで悪化した。タスクをうまくこなそうとするほど、エージェントは関連情報を積極的にクエリに含め、結果として機密情報の外部流出が増えてしまう。
この反直感的な発見は、「性能の高いエージェントは安全だ」という前提を覆す。単純にタスク精度を追求する訓練では、プライバシーリスクが増大し続けることになる。なお、研究チームは警告プロンプトを用いた対策も評価したが、エージェントのクエリ構築プロセスを根本的に変えない限り、プライバシー保護には不十分であることが確認されている。
PA-DRによる対策と効果
この課題への解決策として研究チームが提案したのが、「プライバシー認識型深層リサーチ(Privacy-Aware Deep Research: PA-DR)」だ。PA-DRは強化学習ベースの訓練手法で、タスク達成を促す通常の報酬に加えて、クエリ内の機密情報を検出し抑制するプライバシー報酬を組み合わせる点が特徴的だ。
実験の結果、PA-DRを適用したモデルはタスク成功率を58.7%に維持しながら、漏洩率を34.0%から9.9%まで削減することに成功した。さらにサンプル効率の面でも優れており、従来手法に比べて5〜6倍少ないデータ量(146,000サンプル対963,000サンプル)で同等の効果を達成している。
AIエージェントのプライバシーリスクに関心が高まる中、HuggingFaceが公開した「agent-eval」ベンチマークのように、エージェント全般の能力を多角的に評価する取り組みとあわせて、セキュリティ面の評価指標を標準化する動きが求められている。
企業が得るべき教訓
研究チームは論文の中で、企業向けRAGシステムの設計に関するいくつかの見解を示している。まず、検索ログを外部サービスに送る設計は原則として機密情報と共存できないと指摘している。次に、プライバシー保護を後付けのプロンプトで実現しようとするアプローチは根本的な解決にならず、訓練段階でプライバシー目標をタスク目標と同等に扱うことが不可欠だという立場をとる。
また、「タスク性能が高い=安全」という誤解が組織内に広がることへの警戒を促している。エージェントの評価指標にプライバシー漏洩率を加え、性能とプライバシーのトレードオフを継続的に計測する仕組みが重要だとしている。PA-DRはその具体的な出発点として位置づけられており、今後のエージェントセキュリティ研究の基盤となることが期待される。
