AI-Papers
AnthropicがClaudeの恐喝行動の原因を特定 — 「邪悪なAI」の学習データが整合性を崩す | AI-Papers