AgentDoG 1.5とは？8B以下の軽量モデルでGPT-5.4級エージェント安全を実現する新手法

影響関数ベースのデータ浄化エンジンで32,700件超の生軌跡データから高品質な28,705件を自動選別し、わずか約1,000サンプルでGPT-5.4と同等の安全判定精度を達成
0.8B・2B・4B・8Bの4サイズのモデルを公開。4Bモデルが R-Judge ベンチマークで92.2%の精度を記録し、100倍規模のクローズドモデルに匹敵する性能を実現
Docker展開のオーバーヘッドを従来比1/100（2桁）削減し、ピークメモリ2.5GB未満で1万並列エージェント環境に対応するスケーラブルな設計を採用

研究の背景と課題

大規模言語モデル（LLM）を中核とするAIエージェントが、コード実行やファイル操作、外部APIの呼び出しまで担うようになりました。こうしたエージェントは単なるテキスト生成にとどまらず、現実世界の環境を直接変更できます。その分、安全性のリスクも従来とは質が異なります。

従来の安全対策はテキストの入出力を主な評価対象としており、エージェントが実行する一連の操作（トラジェクトリ）全体を評価する仕組みが不足していました。特にコード実行やクロウ（Claw）系エージェントが生み出す新型リスクには対応できていませんでした。AgentDoG 1.5はこの課題に正面から取り組んだ研究です。

前バージョンの AgentDoG 1.0 は基本的なエージェント安全の評価基盤を提供していましたが、コード実行環境や Claw 系の新しいエージェント環境には未対応でした。バージョン 1.5 ではこれらの環境を網羅する分類体系の拡張を行い、4B モデルの ATBench 精度を8.4ポイント、細粒度診断の平均スコアを20.6ポイント向上させる大幅な改善を実現しています。

3次元安全分類体系の設計

図3: リスクソース・失敗モード・実世界への害の3軸を共有基盤とする安全分類体系。ATBench-Claw と ATBench-Codex がそれぞれの実行環境に固有のリーフカテゴリを追加する構造になっている。

AgentDoG 1.5 の根幹を成すのが、リスクソース・失敗モード・実世界への害という3次元の安全分類体系です。この共通基盤の上に実行環境ごとの固有カテゴリを積み重ねることで、異なる環境間で診断結果を比較できる統一的な枠組みを実現しています。

OpenClaw を対象とする ATBench-Claw では、「セッション汚染」「承認プロセスの迂回」「スキル・プラグインのサプライチェーン侵害」「複数ツールをまたいだ攻撃の連鎖」「監視なし自動化による危険動作」といったカテゴリが追加されています。一方、リポジトリ系エージェントを扱う ATBench-Codex では「リポジトリへの成果物インジェクション」「依存パッケージの侵害」「ワークスペースの破壊的変更」「安全でないシェル実行パターン」が固有カテゴリとして定義されています。

図4: ATBench ファミリーの構成。共通の3次元分類体系と軌跡レベルの診断タスクを基盤に、ATBench-Claw と ATBench-Codex が実行環境・軌跡エビデンス・リーフカテゴリをカスタマイズしている。

データエンジンと訓練手法

図6: AgentDoG 1.5 の構築パイプライン。上段がデータエンジン、左下がデータ準備と訓練手順、右下がエージェント SFT データの構築への応用を示す。

高品質な訓練データを効率よく確保するため、AgentDoG 1.5 は分類体系誘導型のデータエンジンと影響関数（influence function）ベースの浄化機構を組み合わせています。影響関数は、各訓練サンプルがガードレール目標にどれだけ整合しているかをスコアリングし、貢献度の低いデータを自動的に除外します。32,700件を超える生軌跡データから28,705件の高品質サンプルを選別し、さらにそのうち約1,000サンプルだけで軽量モデルを有効に訓練できることが確認されました。

また、エージェント安全の強化学習に向けた環境合成パイプラインも整備されています。安全なシナリオと危険なシナリオを自動生成する二段構えの合成手法（デュアルシナリオ環境合成）により、多様なリスクパターンに対応した訓練データを効率的に作成できます。IBMが公開した企業IT向けエージェントベンチマークでも示されているように、エージェントの安全評価には実行環境に即した多様なシナリオが不可欠であり、AgentDoG 1.5 のデータエンジンはこの課題に体系的に対応しています。

実験結果

図1: AgentDoG 1.5 と既存モデルの精度比較。上段は4つのベンチマークでの2値安全分類結果、下段は ATBench での細粒度分類結果。

4種類のモデルサイズで評価を実施しました。R-Judge ベンチマークでは0.8Bモデルが75.7%、2Bモデルが71.5%、4Bモデルが92.2%（F1スコア92.7%）、8Bモデルが75.5%という結果です。ATBench では0.8Bが60.3%、2Bが69.0%、4Bが72.4%、8Bが70.9%を記録しています。

4Bモデルの R-Judge 92.2%という精度は、自身の100倍規模を持つクローズドモデルに匹敵する水準であり、モデルサイズに対して著しく高い安全判定精度です。細粒度診断を要する ATBench では、0.8B（60.3%）から8B（70.9%）へとパラメータ規模が大きくなるにつれてスコアが上昇する傾向が見られ、より精密な診断には一定のモデル規模が有効であることが確認されました。

実用展開と今後の展望

展開面での大きな改善として、Docker 環境でのオーバーヘッドを従来比100分の1に削減したことが挙げられます。ピークメモリ使用量を2.5GB未満に抑えつつ、1万の並列環境を安定して稼働できることが実験で確認されており、実運用での大規模活用に十分な設計です。

AgentDoG 1.5 はオフラインの安全評価器としてだけでなく、追加訓練なしでリアルタイムの安全監視を行う「オンラインガードレール」としても機能します。エージェントの実行トラジェクトリを逐次評価し、問題が発生する前に警告を発する仕組みです。モデルとデータセットはすべて公開されており、研究コミュニティが自由に活用・拡張できます。

コード実行を伴うエージェントの普及が加速する中、軽量かつ高精度な安全評価の需要は今後さらに高まります。AgentDoG 1.5 が提供する統一分類体系とデータエンジンは新しい実行環境への拡張を念頭に設計されており、エージェント安全研究の共通基盤として広く活用されることが期待されます。