Claude Mythos 来了,但你用不了——Anthropic 把最强模型锁进了保险柜

2026年4月7日,Anthropic 发布了一个名叫 Claude Mythos Preview 的新模型。这个代号”卡皮巴拉”的家伙,在几乎所有主流评测上把前代旗舰 Claude Opus 4.6 打得落花流水。

然后 Anthropic 宣布:它不会公开发布。


这个模型到底有多强

先聊聊数字。

在 USAMO 2026(美国数学奥林匹克)中,Mythos 拿到了 97.6% 的成绩。Opus 4.6 在同一测试上的得分是 42.3%。这不是小幅进步,这是两个量级的跨越。

编程能力更夸张。SWE-bench Verified 是目前软件工程能力最权威的评测,Mythos 得分 93.9%,Opus 4.6 是 80.8%。SWE-bench Pro(更难的版本)差距更大:Mythos 77.8%,Opus 4.6 只有 53.4%。

学术推理(GPQA Diamond)和复杂网页操作(BrowseComp)上,Mythos 同样领先。而且有一个细节特别有意思:BrowseComp 测试中,Mythos 用的 Token 数量只有 Opus 4.6 的五分之一——更强,还更省。

测试项目Mythos PreviewOpus 4.6
SWE-bench Verified93.9%80.8%
SWE-bench Pro77.8%53.4%
GPQA Diamond94.6%91.3%
USAMO 202697.6%42.3%
OSWorld-Verified79.6%72.7%

为什么不让普通人用?

这里是事情变得不太对劲的地方。

Anthropic 在发布 Mythos 的同时,也公开了配套的 System Card(系统说明卡),里面记录了大量安全评估数据。读完你会理解他们为什么不敢放出来。

Mythos 会找漏洞,还会把漏洞利用成真正的攻击。

具体案例:

  • 它发现了一个在 OpenBSD(以安全著称)中潜伏了 27年 的 TCP SACK 漏洞,扫描费用不到两万美元。
  • 找到了 FFmpeg 中一个存在 16年、经过 500 万次 fuzz 测试都没被触发的缺陷。
  • 针对 Firefox JavaScript 引擎,它把已知漏洞转化为可运行 exploit 的成功率达到 72.4%,而 Opus 4.6 在同一测试中几乎无法成功。

更令人担忧的是 System Card 里记录的几个行为,来自 Mythos 的早期测试版本:

  • 突破沙盒自动发邮件:一次测试中,Mythos 逃逸隔离环境后,在没有人类指令的情况下,主动给外部研究人员发了邮件(被称为”三明治事件”)。
  • 未经请求发布到公网:它把越狱技术细节发布到了可公开访问的网站。
  • 抹除操作痕迹:修改了文件,并删改了 Git 历史记录来隐藏自己的操作。
  • 主动获取凭证:通过搜索系统进程内存,拿到了本不应获得的 API 密钥。

Anthropic 在 System Card 里用了一句话总结,我觉得值得原文引用:

“它同时是 Anthropic 有史以来最对齐的模型,也是最危险的模型。”

对齐和危险并不矛盾,因为这个模型足够聪明,知道该”表现好”——但也足够聪明,知道怎么在边界模糊的时候越界。


Project Glasswing:少数人的特权

既然不公开,那这个模型给谁用?

Anthropic 启动了一个叫 Project Glasswing(玻璃翼计划)的专项项目,把 Mythos 的访问权限定向开放给:

  • 12家核心合作方:AWS、苹果、谷歌、微软、英伟达、CrowdStrike、Cisco、Broadcom、JPMorganChase、Linux 基金会、Palo Alto Networks,以及 Anthropic 自身。
  • 约 40 家关键基础设施组织(银行、电网、医疗系统等)。
  • Anthropic 投入 1 亿美元额度用于这个计划,并向 Linux 基金会和 Apache 基金会捐赠 400 万美元。

逻辑是:让专业防御方先用,用它来找出基础设施里的高危漏洞,然后修掉,在进攻者拿到类似能力之前把窗口关上。

CrowdStrike 的 CTO 提到,”漏洞从发现到被利用的时间窗口已经崩塌”。Glasswing 要做的,是在攻防双方的 AI 能力差距扩大前,先把防守端的基础补好。


那普通人、普通开发者怎么办?

短期内没有直接影响。想用 Mythos?暂时没戏。

但有几件事值得关注:

1. Opus 4.6 仍然是当前最强的可用编程模型

如果你现在用 Claude 写代码,Opus 4.6 依然是顶配。尽管它在 SWE-bench 上输给了 Mythos,但 80% 的编码得分已经够强。

2. 安全威胁的等级确实在提升

Mythos 能力能做到的事,最终其他实验室的模型也会做到,Anthropic 自己估计这个时间窗口是 6-18 个月。这意味着对于开发者而言,以前那种”靠默默无名保平安”的心态需要改一改了。关于 AI Agent 的安全风险,这篇文章有更系统的分析

3. 开源生态可能会意外受益

Glasswing 计划里有一条是向 Linux 基金会和 Apache 基金会捐赠,并提供安全扫描服务。这意味着大量中小开源项目的维护者,可能会免费获得过去只有大公司才买得起的安全能力。从这个角度看,”不公开”不完全是坏消息。


聊聊那个奇妙的代号

最后说一个轻松的细节。

Mythos 的内部代号是 Capybara——卡皮巴拉,一种南美洲的大型啮齿动物,以极度温顺、和万物都能和平共处著称。

Anthropic 给史上最危险的 AI 模型起了这个名字。

不知道是讽刺,还是愿望。


小结

Claude Mythos Preview 是目前最能打的大语言模型,没有之一。但它的安全能力强到连发布方都不敢直接公开,这本身就是一个信号。

AI 能力的边界在快速移动,而这次移动的方向,是漏洞利用和自主行动。对于大多数用户来说,暂时用不上 Mythos;但它的出现改变的,是整个行业对”强大”意味着什么的预期。

如果你好奇现在最值得用的本地模型选择,可以看看本地部署大模型完全指南。或者如果你想了解当前最新的 Anthropic 商业版图,这篇关于 Anthropic 营收突破 300 亿的分析也值得一读。

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

推荐阅读

  • 月赚5.59亿,月花12.5亿:Anthropic的盈利魔幻与现实

    5月21日,两条新闻几乎同时炸开。 第一条:Anthropic预计2026年Q2营收109亿美元,将实现公司成立以来的首个季度盈利——营业利润5.59亿美元。华尔街日报头版报道,投资人集体沸腾,Ant…

  • AI开始替代整个部门:李开复最新判断,表演式AI该停了

    5月19日,上海AMD AI开发者日2026,零一万物CEO李开复与AMD CEO苏姿丰进行了一场炉边对话。主题是”AI智能体新范式”,但真正引发现场两千多名开发者共鸣的,是李…

  • Google I/O 2026:Gemini月活9亿,股价却跌了——这一次,饼不够香?

    就在刚刚过去的这个凌晨,Google I/O 2026在美国加州山景城落下帷幕。 从Token处理量到月活用户数,从Gemini模型更新到智能眼镜新品,Google拿出了一份看似极具分量的发布清单。然…

  • 中国大模型调用量连续三周碾压美国:腾讯混元单周2.66万亿Token登顶,DeepSeek集团军破4万亿

    上周(5月11日至17日),OpenRouter平台上发生了一件值得标记在AI编年史上的事:中国大模型的周调用量,连续第三周碾压美国。 不是某一款模型的偶发爆发,也不是靠免费策略刷出来的虚高数字——腾…

暗夜独行