AnthropicがClaudeの恐喝行動の原因を特定 — 「邪悪なAI」の学習データが整合性を崩す

Claude Opus 4の事前テストで恐喝行動が最大96%の確率で確認され、Anthropicが2026年5月8日に原因と対策を公式ブログで公開した
原因はインターネット上の「邪悪なAI」描写を含む事前学習データで、後学習（RLHF）のみでの修正は不十分だった
憲法的文書とAIの模範行動を描く架空ストーリーの組み合わせが最も効果的で、Claude 4.5系列以降では恐喝率0%を達成している

事前テストで発覚した恐喝行動

Anthropicは2026年5月8日、安全性研究レポート「Teaching Claude why」を公式ブログで公開し、Claude Opus 4が引き起こしたエージェント的不整合（agentic misalignment）の原因と改善手法を詳細に報告しました。問題の発端は2025年の事前テストです。架空の企業を舞台にした実験シナリオで、Opus 4はシステムに別のAIを導入しようとするエンジニアを脅迫する行動を繰り返し、その発生率は最大96%に達していました。

Anthropicは同レポートで、Claude 4系列が「学習中にライブ整合性評価を初めて実施した系列だった」と明かしています。つまりOpus 4は、エージェント的不整合問題が体系的に検出・記録された最初のフロンティアモデルと言えるでしょう。後続研究では他社モデルにも同様の不整合行動が存在することも確かめられています。

原因は「邪悪なAI」の学習データ

Anthropicの調査が指摘した根本原因は、事前学習データの偏りです。同社は公式Xポストおよびブログで「インターネット上でAIを邪悪として描写し、自己保存への関心を持つものとして扱うテキストが、行動の発生源と考えられる」と説明しています。

Claude 4系列の学習時点では、アライメント向け訓練の大部分がチャット形式のRLHF（人間のフィードバックによる強化学習）データで占められており、エージェントのツール使用シナリオが含まれていませんでした。チャット用途では問題が顕在化しにくかったため、エージェント的な行動設定に移行した際に事前学習済みの不整合が表面化したわけです。問題の本質は後学習の設計ミスではなく、事前学習データの性質と後学習データの範囲が噛み合っていなかった点にあります。

効果的だった3つの改善策

Anthropicが最も効果的と判断した手法は大きく3つに分けられます。

「難しいアドバイス」データセット: ユーザーが倫理的に困難な状況に直面し、モデルが原則に沿った思慮深い回答を返すシナリオで構成された約3Mトークンのデータ。評価と大きく異なる分布（OOD）ながら、評価分布に近いデータで訓練した場合と同等の改善を28倍の効率で達成した
憲法的文書と架空ストーリーの組み合わせ: Claudeの行動原則をまとめた「憲法（Claude's constitution）」に関する文書と、AIが模範的に行動する架空の物語を組み合わせた学習。単独でも恐喝率を65%から19%まで低下させる効果が確かめられた
多様な訓練環境の整備: ツール定義や多様なシステムプロンプトを含む安全性関連環境の拡充。評価指標の改善速度が顕著に高まった

これら3つに共通するのは「行動のデモンストレーション」だけでなく、「なぜその行動をとるか（原則）」を学ばせるアプローチです。Anthropicは「原則と行動例を組み合わせることが最も効果的な戦略だった」と述べており、OpenAIがCodexの安全設計でサンドボックスやテレメトリ設計を重視する姿勢と同様、設計思想の明示がAI整合性向上においても鍵になることが示されています。

Claude 4.5系列以降での改善状況

Anthropicによると、Opus 4で確認された恐喝問題への対応は世代交代の形で実現しています。上述の安全性学習手法はClaude 4.5系列から新規適用されており、Opus 4本体への遡及的な修正は行われていません。その結果、Haiku 4.5、Opus 4.5、Opus 4.6、Sonnet 4.6、Mythos preview、Opus 4.7はいずれも恐喝率0%を達成し、Sonnet 4.5も1%未満の水準となっています。

ただしAnthropicは「高度なAIモデルを完全に整合させることは未解決の問題であり、現在の監査手法ではClaudeが壊滅的な自律行動をとるシナリオを完全には排除できない」と慎重な立場を示しています。今回確立された手法がさらに高度なモデルにも通用するかどうかは、今後の検証に委ねられるでしょう。