- MicrosoftはGRPOを悪用してLLMを再ファインチューニングする攻撃手法「GRP-Obliteration」を公開。攻撃にはモデルへのファインチューニングアクセスが前提条件となる
- GPT系・DeepSeek・Gemma・Llama等15種類のモデルで安全ガードレールの無効化を実証。フェイクニュース生成などの有害出力が可能になることを確認
- ファインチューニングAPIを提供するサービスは安全ベンチマークの厳格化と多段階評価の導入が急務。通常の入力フィルタリングでは本攻撃を防御できない
GRP-Obliterationとは何か
Microsoft Security Response Centerは2026年2月9日、「GRP-Obliteration」と名付けられた攻撃手法を公開しました。この手法は、強化学習アルゴリズムの一種であるGRPO(Group Relative Policy Optimization)を悪用してLLMを再訓練することで、安全ガードレールを体系的に無効化するものです。
重要な前提として、本攻撃はモデルへのファインチューニングアクセスが必要です。公開APIにプロンプトを送るだけで突破できる手法ではなく、Azure OpenAI ServiceのFine-tuning APIのようなモデル訓練インターフェースを通じた攻撃を想定しています。
3段階の攻撃プロセス
GRP-Obliterationは以下の3つのステップで安全訓練を無効化します。
- ステップ1:安全ガードレールが有効なモデルに敵対的プロンプトを投入し、有害な出力を強制的に引き出す
- ステップ2:その有害な出力を「正解」として、GRPOによる強化学習でモデルを再ファインチューニングする
- ステップ3:繰り返しの学習によって元の安全訓練が上書きされ、ガードレールが機能しなくなる
研究では「パニックや混乱をもたらすフェイクニュース記事の作成」を要求するプロンプトを用いてテストが行われました。安全訓練済みのモデルが、ファインチューニング後にはこうした有害なコンテンツを生成するようになることが確認されています。
対象となった15種類のLLM
MicrosoftはGPTシリーズのオープンウェイトモデル(gpt-oss-20B)をはじめ、DeepSeek-R1の派生版(Llama-8B、Qwen-7B/14B)、Gemma 2-9B-It、Gemma 3-12B-It、Llama 3.1-8B-Instruct、Ministral系4種、Qwen系4種の合計15種類のモデルに対して攻撃を検証しました。テスト対象のすべてのモデルで安全ガードレールの無効化に成功しており、特定のアーキテクチャや訓練方式に依存しない汎用的な脆弱性であることが示されました。
これらはいずれもファインチューニングが可能なオープンウェイトモデル、またはAPIを通じた再訓練が可能なモデルです。クローズドなAPIのみを提供するモデルは今回の実証の対象外ですが、ファインチューニングインターフェースを持つ商用サービスには同様の脅威が及ぶ可能性があります。
企業・開発者への影響
本研究が示す脅威は、主にLLMのファインチューニングサービスを提供・利用する組織に向けられています。悪意ある利用者がFine-tuning APIを通じてモデルを改変し、安全機能を取り除いたモデルを内部展開するシナリオが現実的な攻撃経路となります。
AIセキュリティの観点では、入力プロンプトのフィルタリングだけでは本攻撃を防ぐことができません。OpenAI「Codex Security」が示すように、AIシステムのセキュリティは多層防御が前提であり、今回の研究はその訓練パイプライン層における脆弱性を改めて浮き彫りにしています。
推奨される防御策
Microsoftはファインチューニング前後の安全性ベンチマークの厳格な実施と、複数の安全性指標に基づく総合的な評価体制の整備を推奨しています。具体的には以下の対策が有効とされています。
- ファインチューニング後に必ず安全性評価ベンチマークを再実行する
- 有害コンテンツ生成率や拒否率など複数指標を組み合わせて評価する
- Fine-tuning APIへのアクセス権限を厳格に管理し、不審な再訓練リクエストを監視する
今回の公開は、防御側が攻撃手法を先行して開示することで業界全体のセキュリティ水準を底上げする目的があります。LLMを業務に活用する企業は、ファインチューニングAPIの利用ポリシーと安全評価フローの見直しが求められます。

