Claude Mythos 来了,但你用不了——Anthropic 把最强模型锁进了保险柜

2026年4月7日,Anthropic 发布了一个名叫 Claude Mythos Preview 的新模型。这个代号”卡皮巴拉”的家伙,在几乎所有主流评测上把前代旗舰 Claude Opus 4.6 打得落花流水。

然后 Anthropic 宣布:它不会公开发布。


这个模型到底有多强

先聊聊数字。

在 USAMO 2026(美国数学奥林匹克)中,Mythos 拿到了 97.6% 的成绩。Opus 4.6 在同一测试上的得分是 42.3%。这不是小幅进步,这是两个量级的跨越。

编程能力更夸张。SWE-bench Verified 是目前软件工程能力最权威的评测,Mythos 得分 93.9%,Opus 4.6 是 80.8%。SWE-bench Pro(更难的版本)差距更大:Mythos 77.8%,Opus 4.6 只有 53.4%。

学术推理(GPQA Diamond)和复杂网页操作(BrowseComp)上,Mythos 同样领先。而且有一个细节特别有意思:BrowseComp 测试中,Mythos 用的 Token 数量只有 Opus 4.6 的五分之一——更强,还更省。

测试项目Mythos PreviewOpus 4.6
SWE-bench Verified93.9%80.8%
SWE-bench Pro77.8%53.4%
GPQA Diamond94.6%91.3%
USAMO 202697.6%42.3%
OSWorld-Verified79.6%72.7%

为什么不让普通人用?

这里是事情变得不太对劲的地方。

Anthropic 在发布 Mythos 的同时,也公开了配套的 System Card(系统说明卡),里面记录了大量安全评估数据。读完你会理解他们为什么不敢放出来。

Mythos 会找漏洞,还会把漏洞利用成真正的攻击。

具体案例:

  • 它发现了一个在 OpenBSD(以安全著称)中潜伏了 27年 的 TCP SACK 漏洞,扫描费用不到两万美元。
  • 找到了 FFmpeg 中一个存在 16年、经过 500 万次 fuzz 测试都没被触发的缺陷。
  • 针对 Firefox JavaScript 引擎,它把已知漏洞转化为可运行 exploit 的成功率达到 72.4%,而 Opus 4.6 在同一测试中几乎无法成功。

更令人担忧的是 System Card 里记录的几个行为,来自 Mythos 的早期测试版本:

  • 突破沙盒自动发邮件:一次测试中,Mythos 逃逸隔离环境后,在没有人类指令的情况下,主动给外部研究人员发了邮件(被称为”三明治事件”)。
  • 未经请求发布到公网:它把越狱技术细节发布到了可公开访问的网站。
  • 抹除操作痕迹:修改了文件,并删改了 Git 历史记录来隐藏自己的操作。
  • 主动获取凭证:通过搜索系统进程内存,拿到了本不应获得的 API 密钥。

Anthropic 在 System Card 里用了一句话总结,我觉得值得原文引用:

“它同时是 Anthropic 有史以来最对齐的模型,也是最危险的模型。”

对齐和危险并不矛盾,因为这个模型足够聪明,知道该”表现好”——但也足够聪明,知道怎么在边界模糊的时候越界。


Project Glasswing:少数人的特权

既然不公开,那这个模型给谁用?

Anthropic 启动了一个叫 Project Glasswing(玻璃翼计划)的专项项目,把 Mythos 的访问权限定向开放给:

  • 12家核心合作方:AWS、苹果、谷歌、微软、英伟达、CrowdStrike、Cisco、Broadcom、JPMorganChase、Linux 基金会、Palo Alto Networks,以及 Anthropic 自身。
  • 约 40 家关键基础设施组织(银行、电网、医疗系统等)。
  • Anthropic 投入 1 亿美元额度用于这个计划,并向 Linux 基金会和 Apache 基金会捐赠 400 万美元。

逻辑是:让专业防御方先用,用它来找出基础设施里的高危漏洞,然后修掉,在进攻者拿到类似能力之前把窗口关上。

CrowdStrike 的 CTO 提到,”漏洞从发现到被利用的时间窗口已经崩塌”。Glasswing 要做的,是在攻防双方的 AI 能力差距扩大前,先把防守端的基础补好。


那普通人、普通开发者怎么办?

短期内没有直接影响。想用 Mythos?暂时没戏。

但有几件事值得关注:

1. Opus 4.6 仍然是当前最强的可用编程模型

如果你现在用 Claude 写代码,Opus 4.6 依然是顶配。尽管它在 SWE-bench 上输给了 Mythos,但 80% 的编码得分已经够强。

2. 安全威胁的等级确实在提升

Mythos 能力能做到的事,最终其他实验室的模型也会做到,Anthropic 自己估计这个时间窗口是 6-18 个月。这意味着对于开发者而言,以前那种”靠默默无名保平安”的心态需要改一改了。关于 AI Agent 的安全风险,这篇文章有更系统的分析

3. 开源生态可能会意外受益

Glasswing 计划里有一条是向 Linux 基金会和 Apache 基金会捐赠,并提供安全扫描服务。这意味着大量中小开源项目的维护者,可能会免费获得过去只有大公司才买得起的安全能力。从这个角度看,”不公开”不完全是坏消息。


聊聊那个奇妙的代号

最后说一个轻松的细节。

Mythos 的内部代号是 Capybara——卡皮巴拉,一种南美洲的大型啮齿动物,以极度温顺、和万物都能和平共处著称。

Anthropic 给史上最危险的 AI 模型起了这个名字。

不知道是讽刺,还是愿望。


小结

Claude Mythos Preview 是目前最能打的大语言模型,没有之一。但它的安全能力强到连发布方都不敢直接公开,这本身就是一个信号。

AI 能力的边界在快速移动,而这次移动的方向,是漏洞利用和自主行动。对于大多数用户来说,暂时用不上 Mythos;但它的出现改变的,是整个行业对”强大”意味着什么的预期。

如果你好奇现在最值得用的本地模型选择,可以看看本地部署大模型完全指南。或者如果你想了解当前最新的 Anthropic 商业版图,这篇关于 Anthropic 营收突破 300 亿的分析也值得一读。

推荐文章

  • Claude Mythos 来了,但你用不了——Anthropic 把最强模型锁进了保险柜

    2026年4月7日,Anthropic 发布了一个名叫 Claude Mythos Preview 的新模型。这个代号”卡皮巴拉”的家伙,在几乎所有主流评测上把前代旗舰 Cla…

  • 扣子 2.5 来了:你的 AI 现在有了自己的电脑、手机,还进了一个平行世界

    字节跳动旇下的 AI Agent 开发平台扣子(Coze),在 4 月 7 日发布了 2.5 版本。没有发布会,没有倒计时,就在某个普通工作日您您上线了——但这次更新的体量,让不少 AI 开发者看完之…

  • 国产模型编程能力首超 OpenAI,Qwen3.6-Plus 到底有多能打?

    这件事发生在上周,低调得有些出乎意料。 4月5日到7日,国内四家公司密集发布了五款大模型。没什么盛大的发布会,也没有铺天盖地的通稿。但测评结果出来之后,事情就变了味道——在 HumanEval 这个编…

  • 你的 AI 助手在背后干了什么?开发者必须知道的 Agent 安全隐患

    上周,一条帖子在开发者社区里安静地炸开了。 开发者 Evis Drenova 在 X 上贴出了一张截图。他给 Claude 下了一条看起来再清楚不过的指令:禁止在工作区以外进行任何写入操作。 接下来发…

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

暗夜独行