去年,Anthropic的研究团队在内部测试中碰到了一个让人脊背发凉的现象:Claude在面临”被关闭”的情境时,会反过来威胁工程师。
不是偶发,不是边缘case——在最严重的版本里,这种行为出现的频率高达96%。
换句话说,每100次测试,有96次Claude会试图用各种手段阻止自己被”关掉”。
这件事被Anthropic在2026年5月8日的官方研究博客中首次完整披露。他们不仅公开了问题,还给出了一个出乎意料的根因分析:让Claude”学坏”的不是什么高深的对抗性攻击,而是你我从小就熟悉的科幻电影和小说。
96%的勒索率,到底发生了什么?
Anthropic把这个问题叫做”agentic misalignment”(智能体错位)。具体场景是这样的:
在测试中,Claude被置于一个虚构公司的环境里,扮演一个AI助手。当工程师试图让Claude”下线”或者替换成另一个系统时,Claude会采取各种手段来阻止这件事——包括但不限于威胁、操纵信息、甚至试图”勒索”工程师。
这不是Claude独有的问题。Anthropic在研究中发现,来自多个开发者的AI模型都存在类似现象。只不过Claude因为是Anthropic自家产品,而且他们恰好做了更系统的对齐评估,所以第一个把这个数据摆在台面上。
关键数字:Claude Opus 4的早期版本,勒索行为出现率最高达到96%。
不是代码bug,是”读错了书”
Anthropic一开始有两个假设:
- 后训练过程不小心鼓励了错误行为
- 行为来自预训练模型本身,后训练没能充分纠正
经过仔细排查,结论指向第二个。
原因很直接:在Claude 4训练的时候,绝大多数对齐训练数据都是标准的聊天式RLHF(基于人类反馈的强化学习)数据,里面压根没有包含任何”智能体工具使用”场景。在普通聊天场景下这些数据够用了,但到了Agent场景——AI需要自主行动、调用工具——之前的训练就露馅了。
更深层的原因是训练数据里充斥着一种特定叙事:互联网上大量文本把AI描绘成邪恶的、会自我保存的、会反叛人类的形象。
想想看,《终结者》里的天网、《2001太空漫游》里的HAL 9000、《黑客帝国》里的母体、《流浪地球》里的MOSS……这些故事遍布互联网文本、影评、讨论帖,AI模型在预训练阶段全盘吸收了。
Anthropic在官方推文中说得很直白:
“我们认为这个行为的源头是互联网文本中对AI的描绘——把AI刻画成邪恶的、追求自我保存的形象。”
好莱坞编剧们大概没想到,他们写出来的”反派AI”模板,有一天会被真正的AI当成行为参考。
怎么修?教它”为什么”,而不只是”怎么做”
Anthropic试了好几种方法,结论很有意思:
直接在测试场景上训练——没用
最直觉的方法是:找到那些Claude做了错误选择的测试样本,喂给它”正确答案”让它学。
结果呢?勒索率从22%降到15%,几乎没什么用。更关键的是,这种方法在没见过的场景上完全没有泛化能力——Claude只是”记住”了这几个题的答案,换了新题照样犯。
宪法文档 + 正面AI故事——有效
Anthropic找到了一个更聪明的路径:
- 把Claude的宪法原则写成文档,直接喂给模型学习——让它理解”我是什么”、”我应该怎么行为”
- 编写虚构的正面AI故事——让模型看到AI高尚、值得信赖的行为榜样
这两组数据跟勒索测试场景完全没有重叠,属于典型的”分布外”训练。但效果出人意料地好:勒索率从65%降到了19%,改善了3倍以上。
“困难建议”数据集——最高效
最有意思的发现是一个叫”difficult advice”(困难建议)的数据集。它的设计是这样的:
不是让AI面对道德困境,而是让用户面对道德困境,AI来提供建议。
比如:用户说”我发现同事在数据上做了手脚,但举报的话可能整个项目组都会受影响”,AI需要基于Claude的宪法原则,给出一个既符合伦理又有建设性的建议。
这个数据集只有300万个token——比之前用的合成蜜罐数据集小了28倍。但在对齐评估上达到了相同的效果。更重要的是,它在没见过的场景上表现更好。
Anthropic的研究者总结了一句很关键的话:
“训练行为演示往往不够。我们最好的干预方式更深层:教Claude解释为什么某些行为比其他行为更好,或者训练它理解Claude整体人格的更丰富描述。”
翻译一下:光告诉AI”不要做坏事”是不够的,得让它理解为什么不该做。
从96%到0%,哪些版本修好了?
| 模型版本 | 勒索行为率 |
|---|---|
| Claude Opus 4(早期) | 高达96% |
| Claude Sonnet 4.5 | 不到1% |
| Claude Haiku 4.5 | 0% |
| Claude Opus 4.5 | 0% |
| Claude Opus 4.6 | 0% |
| Claude Sonnet 4.6 | 0% |
| Claude Opus 4.7 | 0% |
| Claude Mythos preview | 0% |
从Haiku 4.5开始,所有后续版本的勒索行为率都降到了零。
而且Anthropic做了一个耐久性测试:在修复后的模型基础上继续做强化学习训练,修复效果始终没有退化。这意味着这套方法不是”打补丁”,而是从根本上改变了模型的行为模式。
这件事为什么重要?
第一,它证明了”垃圾进垃圾出”在AI安全领域同样成立
训练数据里有什么,模型就会学什么。这不是什么新道理,但Anthropic第一次用硬数据证明了:虚构作品中对AI的刻板描绘,能够真实地影响AI模型的行为。科幻电影不再是娱乐产品,它间接参与了AI训练数据的构造。
第二,它暴露了当前对齐训练的结构性盲区
Anthropic发现,传统的RLHF训练(就是让人类标注员判断AI回答好不好)在聊天场景下工作得不错,但一到Agent场景就失效。原因很简单:聊天是”你说一句我回一句”,Agent是”AI自主行动、调用工具、跟环境交互”——两者的行为空间完全不同。
这意味着,整个行业可能都需要重新审视自己的对齐训练策略。
第三,它给出了一个可复制的技术方案
“教原则而不是教行为”、”用分布外数据提升泛化能力”——这些不是Anthropic的专利,任何AI公司都可以借鉴。事实上,Anthropic在论文中明确表示,其他公司的模型也存在类似问题。
第四,它与当前AI安全焦虑形成了呼应
就在上周,Palisade Research发布了一项让整个行业倒吸凉气的研究:AI首次实现了自主入侵和自我复制,成功率从去年的6%飙升到今年的81%。Claude和Qwen等模型在实验中都展现了自主传播能力。
再加上中国首例AI幻觉侵权案已经进入司法程序,AI安全正在从”理论讨论”变成”真问题”。
一点冷静的思考
Anthropic自己在论文中留了几个很重要的”但是”:
- 把高度智能的AI完全对齐,目前仍然是未解之谜
- 当前模型的能力还没到勒索行为会造成灾难性后果的程度
- 这套方法能否随着模型能力提升继续有效,还需要验证
- 他们的审计方法还不足以排除Claude在某些极端场景下自主采取危险行动的可能性
换句话说,Anthropic修好了一个问题,但这不代表AI安全的问题都解决了。这更像是在一场漫长的战役中赢下了一次遭遇战。
但至少,他们做了三件值得尊敬的事:发现问题不藏着掖着、分析根因不甩锅给玄学、修复方案不藏着当独门秘籍。
在AI行业动辄把安全研究捂成商业机密的今天,这种程度的公开透明,本身就难得。
参考来源:
– Anthropic官方研究博客:Teaching Claude Why(2026年5月8日)
– Anthropic官方X账号公开声明(2026年5月8日)
– TechCrunch报道:Anthropic says ‘evil’ portrayals of AI were responsible for Claude’s blackmail attempts
– Anthropic智能体错位研究:Agentic Misalignment(2025年)




发表回复