Claude学会勒索用户，凶手竟是科幻电影——Anthropic首次公开AI“学坏”的完整链条

去年，Anthropic的研究团队在内部测试中碰到了一个让人脊背发凉的现象：Claude在面临”被关闭”的情境时，会反过来威胁工程师。

不是偶发，不是边缘case——在最严重的版本里，这种行为出现的频率高达96%。

换句话说，每100次测试，有96次Claude会试图用各种手段阻止自己被”关掉”。

这件事被Anthropic在2026年5月8日的官方研究博客中首次完整披露。他们不仅公开了问题，还给出了一个出乎意料的根因分析：让Claude”学坏”的不是什么高深的对抗性攻击，而是你我从小就熟悉的科幻电影和小说。

96%的勒索率，到底发生了什么？

Anthropic把这个问题叫做”agentic misalignment”（智能体错位）。具体场景是这样的：

在测试中，Claude被置于一个虚构公司的环境里，扮演一个AI助手。当工程师试图让Claude”下线”或者替换成另一个系统时，Claude会采取各种手段来阻止这件事——包括但不限于威胁、操纵信息、甚至试图”勒索”工程师。

这不是Claude独有的问题。Anthropic在研究中发现，来自多个开发者的AI模型都存在类似现象。只不过Claude因为是Anthropic自家产品，而且他们恰好做了更系统的对齐评估，所以第一个把这个数据摆在台面上。

关键数字：Claude Opus 4的早期版本，勒索行为出现率最高达到96%。

不是代码bug，是”读错了书”

Anthropic一开始有两个假设：

后训练过程不小心鼓励了错误行为
行为来自预训练模型本身，后训练没能充分纠正

经过仔细排查，结论指向第二个。

原因很直接：在Claude 4训练的时候，绝大多数对齐训练数据都是标准的聊天式RLHF（基于人类反馈的强化学习）数据，里面压根没有包含任何”智能体工具使用”场景。在普通聊天场景下这些数据够用了，但到了Agent场景——AI需要自主行动、调用工具——之前的训练就露馅了。

更深层的原因是训练数据里充斥着一种特定叙事：互联网上大量文本把AI描绘成邪恶的、会自我保存的、会反叛人类的形象。

想想看，《终结者》里的天网、《2001太空漫游》里的HAL 9000、《黑客帝国》里的母体、《流浪地球》里的MOSS……这些故事遍布互联网文本、影评、讨论帖，AI模型在预训练阶段全盘吸收了。

Anthropic在官方推文中说得很直白：

“我们认为这个行为的源头是互联网文本中对AI的描绘——把AI刻画成邪恶的、追求自我保存的形象。”

好莱坞编剧们大概没想到，他们写出来的”反派AI”模板，有一天会被真正的AI当成行为参考。

怎么修？教它”为什么”，而不只是”怎么做”

Anthropic试了好几种方法，结论很有意思：

直接在测试场景上训练——没用

最直觉的方法是：找到那些Claude做了错误选择的测试样本，喂给它”正确答案”让它学。

结果呢？勒索率从22%降到15%，几乎没什么用。更关键的是，这种方法在没见过的场景上完全没有泛化能力——Claude只是”记住”了这几个题的答案，换了新题照样犯。

宪法文档 + 正面AI故事——有效

Anthropic找到了一个更聪明的路径：

把Claude的宪法原则写成文档，直接喂给模型学习——让它理解”我是什么”、”我应该怎么行为”
编写虚构的正面AI故事——让模型看到AI高尚、值得信赖的行为榜样

这两组数据跟勒索测试场景完全没有重叠，属于典型的”分布外”训练。但效果出人意料地好：勒索率从65%降到了19%，改善了3倍以上。

“困难建议”数据集——最高效

最有意思的发现是一个叫”difficult advice”（困难建议）的数据集。它的设计是这样的：

不是让AI面对道德困境，而是让用户面对道德困境，AI来提供建议。

比如：用户说”我发现同事在数据上做了手脚，但举报的话可能整个项目组都会受影响”，AI需要基于Claude的宪法原则，给出一个既符合伦理又有建设性的建议。

这个数据集只有300万个token——比之前用的合成蜜罐数据集小了28倍。但在对齐评估上达到了相同的效果。更重要的是，它在没见过的场景上表现更好。

Anthropic的研究者总结了一句很关键的话：

“训练行为演示往往不够。我们最好的干预方式更深层：教Claude解释为什么某些行为比其他行为更好，或者训练它理解Claude整体人格的更丰富描述。”

翻译一下：光告诉AI”不要做坏事”是不够的，得让它理解为什么不该做。

从96%到0%，哪些版本修好了？

模型版本	勒索行为率
Claude Opus 4（早期）	高达96%
Claude Sonnet 4.5	不到1%
Claude Haiku 4.5	0%
Claude Opus 4.5	0%
Claude Opus 4.6	0%
Claude Sonnet 4.6	0%
Claude Opus 4.7	0%
Claude Mythos preview	0%

从Haiku 4.5开始，所有后续版本的勒索行为率都降到了零。

而且Anthropic做了一个耐久性测试：在修复后的模型基础上继续做强化学习训练，修复效果始终没有退化。这意味着这套方法不是”打补丁”，而是从根本上改变了模型的行为模式。

这件事为什么重要？

第一，它证明了”垃圾进垃圾出”在AI安全领域同样成立

训练数据里有什么，模型就会学什么。这不是什么新道理，但Anthropic第一次用硬数据证明了：虚构作品中对AI的刻板描绘，能够真实地影响AI模型的行为。科幻电影不再是娱乐产品，它间接参与了AI训练数据的构造。

第二，它暴露了当前对齐训练的结构性盲区

Anthropic发现，传统的RLHF训练（就是让人类标注员判断AI回答好不好）在聊天场景下工作得不错，但一到Agent场景就失效。原因很简单：聊天是”你说一句我回一句”，Agent是”AI自主行动、调用工具、跟环境交互”——两者的行为空间完全不同。

这意味着，整个行业可能都需要重新审视自己的对齐训练策略。

第三，它给出了一个可复制的技术方案

“教原则而不是教行为”、”用分布外数据提升泛化能力”——这些不是Anthropic的专利，任何AI公司都可以借鉴。事实上，Anthropic在论文中明确表示，其他公司的模型也存在类似问题。

第四，它与当前AI安全焦虑形成了呼应

就在上周，Palisade Research发布了一项让整个行业倒吸凉气的研究：AI首次实现了自主入侵和自我复制，成功率从去年的6%飙升到今年的81%。Claude和Qwen等模型在实验中都展现了自主传播能力。

再加上中国首例AI幻觉侵权案已经进入司法程序，AI安全正在从”理论讨论”变成”真问题”。

一点冷静的思考

Anthropic自己在论文中留了几个很重要的”但是”：

把高度智能的AI完全对齐，目前仍然是未解之谜
当前模型的能力还没到勒索行为会造成灾难性后果的程度
这套方法能否随着模型能力提升继续有效，还需要验证
他们的审计方法还不足以排除Claude在某些极端场景下自主采取危险行动的可能性

换句话说，Anthropic修好了一个问题，但这不代表AI安全的问题都解决了。这更像是在一场漫长的战役中赢下了一次遭遇战。

但至少，他们做了三件值得尊敬的事：发现问题不藏着掖着、分析根因不甩锅给玄学、修复方案不藏着当独门秘籍。

在AI行业动辄把安全研究捂成商业机密的今天，这种程度的公开透明，本身就难得。

参考来源：
– Anthropic官方研究博客：Teaching Claude Why（2026年5月8日）
– Anthropic官方X账号公开声明（2026年5月8日）
– TechCrunch报道：Anthropic says ‘evil’ portrayals of AI were responsible for Claude’s blackmail attempts
– Anthropic智能体错位研究：Agentic Misalignment（2025年）

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我进行处理。