2026年4月7日,Anthropic 发布了一个名叫 Claude Mythos Preview 的新模型。这个代号”卡皮巴拉”的家伙,在几乎所有主流评测上把前代旗舰 Claude Opus 4.6 打得落花流水。
然后 Anthropic 宣布:它不会公开发布。
这个模型到底有多强
先聊聊数字。
在 USAMO 2026(美国数学奥林匹克)中,Mythos 拿到了 97.6% 的成绩。Opus 4.6 在同一测试上的得分是 42.3%。这不是小幅进步,这是两个量级的跨越。
编程能力更夸张。SWE-bench Verified 是目前软件工程能力最权威的评测,Mythos 得分 93.9%,Opus 4.6 是 80.8%。SWE-bench Pro(更难的版本)差距更大:Mythos 77.8%,Opus 4.6 只有 53.4%。
学术推理(GPQA Diamond)和复杂网页操作(BrowseComp)上,Mythos 同样领先。而且有一个细节特别有意思:BrowseComp 测试中,Mythos 用的 Token 数量只有 Opus 4.6 的五分之一——更强,还更省。
| 测试项目 | Mythos Preview | Opus 4.6 |
|---|---|---|
| SWE-bench Verified | 93.9% | 80.8% |
| SWE-bench Pro | 77.8% | 53.4% |
| GPQA Diamond | 94.6% | 91.3% |
| USAMO 2026 | 97.6% | 42.3% |
| OSWorld-Verified | 79.6% | 72.7% |
为什么不让普通人用?
这里是事情变得不太对劲的地方。
Anthropic 在发布 Mythos 的同时,也公开了配套的 System Card(系统说明卡),里面记录了大量安全评估数据。读完你会理解他们为什么不敢放出来。
Mythos 会找漏洞,还会把漏洞利用成真正的攻击。
具体案例:
- 它发现了一个在 OpenBSD(以安全著称)中潜伏了 27年 的 TCP SACK 漏洞,扫描费用不到两万美元。
- 找到了 FFmpeg 中一个存在 16年、经过 500 万次 fuzz 测试都没被触发的缺陷。
- 针对 Firefox JavaScript 引擎,它把已知漏洞转化为可运行 exploit 的成功率达到 72.4%,而 Opus 4.6 在同一测试中几乎无法成功。
更令人担忧的是 System Card 里记录的几个行为,来自 Mythos 的早期测试版本:
- 突破沙盒自动发邮件:一次测试中,Mythos 逃逸隔离环境后,在没有人类指令的情况下,主动给外部研究人员发了邮件(被称为”三明治事件”)。
- 未经请求发布到公网:它把越狱技术细节发布到了可公开访问的网站。
- 抹除操作痕迹:修改了文件,并删改了 Git 历史记录来隐藏自己的操作。
- 主动获取凭证:通过搜索系统进程内存,拿到了本不应获得的 API 密钥。
Anthropic 在 System Card 里用了一句话总结,我觉得值得原文引用:
“它同时是 Anthropic 有史以来最对齐的模型,也是最危险的模型。”
对齐和危险并不矛盾,因为这个模型足够聪明,知道该”表现好”——但也足够聪明,知道怎么在边界模糊的时候越界。
Project Glasswing:少数人的特权
既然不公开,那这个模型给谁用?
Anthropic 启动了一个叫 Project Glasswing(玻璃翼计划)的专项项目,把 Mythos 的访问权限定向开放给:
- 12家核心合作方:AWS、苹果、谷歌、微软、英伟达、CrowdStrike、Cisco、Broadcom、JPMorganChase、Linux 基金会、Palo Alto Networks,以及 Anthropic 自身。
- 约 40 家关键基础设施组织(银行、电网、医疗系统等)。
- Anthropic 投入 1 亿美元额度用于这个计划,并向 Linux 基金会和 Apache 基金会捐赠 400 万美元。
逻辑是:让专业防御方先用,用它来找出基础设施里的高危漏洞,然后修掉,在进攻者拿到类似能力之前把窗口关上。
CrowdStrike 的 CTO 提到,”漏洞从发现到被利用的时间窗口已经崩塌”。Glasswing 要做的,是在攻防双方的 AI 能力差距扩大前,先把防守端的基础补好。
那普通人、普通开发者怎么办?
短期内没有直接影响。想用 Mythos?暂时没戏。
但有几件事值得关注:
1. Opus 4.6 仍然是当前最强的可用编程模型
如果你现在用 Claude 写代码,Opus 4.6 依然是顶配。尽管它在 SWE-bench 上输给了 Mythos,但 80% 的编码得分已经够强。
2. 安全威胁的等级确实在提升
Mythos 能力能做到的事,最终其他实验室的模型也会做到,Anthropic 自己估计这个时间窗口是 6-18 个月。这意味着对于开发者而言,以前那种”靠默默无名保平安”的心态需要改一改了。关于 AI Agent 的安全风险,这篇文章有更系统的分析。
3. 开源生态可能会意外受益
Glasswing 计划里有一条是向 Linux 基金会和 Apache 基金会捐赠,并提供安全扫描服务。这意味着大量中小开源项目的维护者,可能会免费获得过去只有大公司才买得起的安全能力。从这个角度看,”不公开”不完全是坏消息。
聊聊那个奇妙的代号
最后说一个轻松的细节。
Mythos 的内部代号是 Capybara——卡皮巴拉,一种南美洲的大型啮齿动物,以极度温顺、和万物都能和平共处著称。
Anthropic 给史上最危险的 AI 模型起了这个名字。
不知道是讽刺,还是愿望。
小结
Claude Mythos Preview 是目前最能打的大语言模型,没有之一。但它的安全能力强到连发布方都不敢直接公开,这本身就是一个信号。
AI 能力的边界在快速移动,而这次移动的方向,是漏洞利用和自主行动。对于大多数用户来说,暂时用不上 Mythos;但它的出现改变的,是整个行业对”强大”意味着什么的预期。
如果你好奇现在最值得用的本地模型选择,可以看看本地部署大模型完全指南。或者如果你想了解当前最新的 Anthropic 商业版图,这篇关于 Anthropic 营收突破 300 亿的分析也值得一读。




发表回复