- 安全ポリシーをモデルに事前埋め込みせず、実行時に自然言語ルールとして動的に切り替える新しいガードレール手法
- fast-slow分離強化学習により3段階の推論モード(fast / hybrid / slow)を最適化し、効率性と解釈性を両立
- 56,340例・80種超のリスク分類を含む独自ベンチマークSingGuard-Benchで35ベンチマークファミリーにてSOTAを達成
研究の背景
既存のマルチモーダルLLM向けガードレールは、安全ポリシーをモデルに事前学習時または微調整時に埋め込む静的なアプローチが主流でした。しかし、この方式では運用時にポリシーを変更する際に再訓練が必要となり、企業や組織ごとに異なる安全基準へ柔軟に対応できない課題がありました。
また、従来のガードレールの多くはテキストのみ、または画像のみといった単一モーダルに対応するか、固定的な分類体系(タクソノミー)に基づいて動作するため、実務で求められる複雑な安全要件に対応しきれていませんでした。特に、個別のモーダルでは無害でも組み合わせると有害となる「クロスモーダルリスク」の検出は困難でした。
SingGuardの仕組み
SingGuardは、安全ポリシーを「実行時入力」として扱うポリシー適応型のアプローチを採用しています。ユーザーや組織が定義した自然言語の安全ルールを、コンテンツと共にモデルへ入力することで、モデル再訓練なしにポリシーを動的に切り替えられます。

図に示すように、SingGuardはマルチモーダル入力(テキスト・画像・動画)を統一的に処理し、オープンな安全ポリシーと適応的な推論パスを1つのモデルで実現します。従来のガードレールが部分的なモーダルカバレッジや固定的な分類体系、単一の推論経路に限定されていたのに対し、SingGuardはこれらを統合的に扱います。
SingGuardは3段階の推論モードを提供します。fastモードは直接的な安全判定を行い、slowモードはポリシーに基づく詳細な根拠を生成し、hybridモードはその中間として状況に応じた推論を行います。この推論スペクトラムは、fast-slow分離強化学習によって最適化されており、効率性と解釈性のバランスを実現しています。

訓練パイプラインでは、異質な安全データをアクティブポリシーで整列させ、ポリシービューと反事実ラベルで拡張します。さらにセマンティック整合性を検証し、その結果をfastおよびslowガードレールの訓練に使用します。
SingGuard-Benchの特徴
SingGuardチームは、既存のベンチマークでは評価しきれない複雑な安全リスクを評価するため、独自のベンチマーク「SingGuard-Bench」を構築しました。このベンチマークは56,340例を含み、80種類を超える細粒度リスクタイプに対応しています。

図に示されるように、SingGuard-BenchはマルチモーダルQA、敵対的攻撃、動的ルール評価など多様な設定をカバーしています。特筆すべきは、各モーダルが単独では無害だが「その合成が不安全な意図を示唆する」クロスモーダルリスクの定義と評価が含まれている点です。
クロスモーダルリスクとは、例えばテキスト単体では一般的な質問、画像単体では日常的な風景であっても、両者を組み合わせると特定の有害行為を示唆するような状況を指します。このような複雑なリスクパターンの検出は、マルチモーダルLLMの訓練手法においても重要な課題となっています。
実験結果
SingGuardは6つのベンチマークファミリー(計35の基礎データセット)において最先端の平均F1スコアを達成しました。特に動的ポリシー評価において顕著な改善が見られ、ベースライン(Qwen3-VL-8B)の0.6465に対し、SingGuard-slowは0.7415を達成し、約9.5ポイントの向上(相対改善率14.7%)を記録しました。

図のレーダーチャートは、SingGuardがテキスト、画像、マルチモーダル、動的ポリシー設定の全域においてバランスの取れたカバレッジを示していることを表しています。従来のガードレールが特定のモーダルや設定に偏っていたのに対し、SingGuardは包括的な安全性評価を実現しています。
推論速度についても、Rule Isolation Mask(RI-Mask)を用いた並列マルチルール推論により、複数の安全ルールを1回のフォワードパスで評価できるよう最適化されています。

RI-Maskは、共有される画像・テキストプレフィックスと複数のルールブランチを1つのシーケンスにパックします。各ブランチは共通プレフィックスにアテンドできる一方、ルール固有のトークンは他のブランチから分離されます。これにより、独立したルール評価を単一のフォワードパス内で実現しています。
まとめと今後の展望
SingGuardは、安全ポリシーを実行時に動的に切り替えられるポリシー適応型ガードレールとして、マルチモーダルLLMの安全性評価に新しいアプローチをもたらしました。fast-slow分離強化学習による適応的推論モードと、クロスモーダルリスクを含む包括的なベンチマークの構築により、実務での柔軟な安全性管理を可能にします。
コードはGitHubで公開されており(https://github.com/inclusionAI/Sing-Guard)、再現性も確保されています。今後は、より多様なモーダル(音声・動画など)への対応や、リアルタイム性が求められるストリーミング環境での推論最適化が期待されます。
