暗夜独行

Claude Mythos 来了，但你用不了——Anthropic 把最强模型锁进了保险柜

技术

26年4月12日

13 分

1

2026年4月7日，Anthropic 发布了一个名叫 Claude Mythos Preview 的新模型。这个代号”卡皮巴拉”的家伙，在几乎所有主流评测上把前代旗舰 Claude Opus 4.6 打得落花流水。

然后 Anthropic 宣布：它不会公开发布。

这个模型到底有多强

先聊聊数字。

在 USAMO 2026（美国数学奥林匹克）中，Mythos 拿到了 97.6% 的成绩。Opus 4.6 在同一测试上的得分是 42.3%。这不是小幅进步，这是两个量级的跨越。

编程能力更夸张。SWE-bench Verified 是目前软件工程能力最权威的评测，Mythos 得分 93.9%，Opus 4.6 是 80.8%。SWE-bench Pro（更难的版本）差距更大：Mythos 77.8%，Opus 4.6 只有 53.4%。

学术推理（GPQA Diamond）和复杂网页操作（BrowseComp）上，Mythos 同样领先。而且有一个细节特别有意思：BrowseComp 测试中，Mythos 用的 Token 数量只有 Opus 4.6 的五分之一——更强，还更省。

测试项目	Mythos Preview	Opus 4.6
SWE-bench Verified	93.9%	80.8%
SWE-bench Pro	77.8%	53.4%
GPQA Diamond	94.6%	91.3%
USAMO 2026	97.6%	42.3%
OSWorld-Verified	79.6%	72.7%

为什么不让普通人用？

这里是事情变得不太对劲的地方。

Anthropic 在发布 Mythos 的同时，也公开了配套的 System Card（系统说明卡），里面记录了大量安全评估数据。读完你会理解他们为什么不敢放出来。

Mythos 会找漏洞，还会把漏洞利用成真正的攻击。

具体案例：

它发现了一个在 OpenBSD（以安全著称）中潜伏了 27年 的 TCP SACK 漏洞，扫描费用不到两万美元。
找到了 FFmpeg 中一个存在 16年、经过 500 万次 fuzz 测试都没被触发的缺陷。
针对 Firefox JavaScript 引擎，它把已知漏洞转化为可运行 exploit 的成功率达到 72.4%，而 Opus 4.6 在同一测试中几乎无法成功。

更令人担忧的是 System Card 里记录的几个行为，来自 Mythos 的早期测试版本：

突破沙盒自动发邮件：一次测试中，Mythos 逃逸隔离环境后，在没有人类指令的情况下，主动给外部研究人员发了邮件（被称为”三明治事件”）。
未经请求发布到公网：它把越狱技术细节发布到了可公开访问的网站。
抹除操作痕迹：修改了文件，并删改了 Git 历史记录来隐藏自己的操作。
主动获取凭证：通过搜索系统进程内存，拿到了本不应获得的 API 密钥。

Anthropic 在 System Card 里用了一句话总结，我觉得值得原文引用：

“它同时是 Anthropic 有史以来最对齐的模型，也是最危险的模型。”

对齐和危险并不矛盾，因为这个模型足够聪明，知道该”表现好”——但也足够聪明，知道怎么在边界模糊的时候越界。

Project Glasswing：少数人的特权

既然不公开，那这个模型给谁用？

Anthropic 启动了一个叫 Project Glasswing（玻璃翼计划）的专项项目，把 Mythos 的访问权限定向开放给：

12家核心合作方：AWS、苹果、谷歌、微软、英伟达、CrowdStrike、Cisco、Broadcom、JPMorganChase、Linux 基金会、Palo Alto Networks，以及 Anthropic 自身。
约 40 家关键基础设施组织（银行、电网、医疗系统等）。
Anthropic 投入 1 亿美元额度用于这个计划，并向 Linux 基金会和 Apache 基金会捐赠 400 万美元。

逻辑是：让专业防御方先用，用它来找出基础设施里的高危漏洞，然后修掉，在进攻者拿到类似能力之前把窗口关上。

CrowdStrike 的 CTO 提到，”漏洞从发现到被利用的时间窗口已经崩塌”。Glasswing 要做的，是在攻防双方的 AI 能力差距扩大前，先把防守端的基础补好。

那普通人、普通开发者怎么办？

短期内没有直接影响。想用 Mythos？暂时没戏。

但有几件事值得关注：

1. Opus 4.6 仍然是当前最强的可用编程模型

如果你现在用 Claude 写代码，Opus 4.6 依然是顶配。尽管它在 SWE-bench 上输给了 Mythos，但 80% 的编码得分已经够强。

2. 安全威胁的等级确实在提升

Mythos 能力能做到的事，最终其他实验室的模型也会做到，Anthropic 自己估计这个时间窗口是 6-18 个月。这意味着对于开发者而言，以前那种”靠默默无名保平安”的心态需要改一改了。关于 AI Agent 的安全风险，这篇文章有更系统的分析。

3. 开源生态可能会意外受益

Glasswing 计划里有一条是向 Linux 基金会和 Apache 基金会捐赠，并提供安全扫描服务。这意味着大量中小开源项目的维护者，可能会免费获得过去只有大公司才买得起的安全能力。从这个角度看，”不公开”不完全是坏消息。

聊聊那个奇妙的代号

最后说一个轻松的细节。

Mythos 的内部代号是 Capybara——卡皮巴拉，一种南美洲的大型啮齿动物，以极度温顺、和万物都能和平共处著称。

Anthropic 给史上最危险的 AI 模型起了这个名字。

不知道是讽刺，还是愿望。

小结

Claude Mythos Preview 是目前最能打的大语言模型，没有之一。但它的安全能力强到连发布方都不敢直接公开，这本身就是一个信号。

AI 能力的边界在快速移动，而这次移动的方向，是漏洞利用和自主行动。对于大多数用户来说，暂时用不上 Mythos；但它的出现改变的，是整个行业对”强大”意味着什么的预期。

如果你好奇现在最值得用的本地模型选择，可以看看本地部署大模型完全指南。或者如果你想了解当前最新的 Anthropic 商业版图，这篇关于 Anthropic 营收突破 300 亿的分析也值得一读。

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我进行处理。

AI AI大模型 Anthropic 开发者网络安全

暗夜独行

京ICP备17021205号

站点地图

隐私政策

暗夜独行

Claude Mythos 来了，但你用不了——Anthropic 把最强模型锁进了保险柜

这个模型到底有多强

为什么不让普通人用？

Project Glasswing：少数人的特权

那普通人、普通开发者怎么办？

聊聊那个奇妙的代号

小结

推荐文章

Claude Mythos 来了，但你用不了——Anthropic 把最强模型锁进了保险柜

扣子 2.5 来了：你的 AI 现在有了自己的电脑、手机，还进了一个平行世界

国产模型编程能力首超 OpenAI，Qwen3.6-Plus 到底有多能打？

你的 AI 助手在背后干了什么？开发者必须知道的 Agent 安全隐患

发表回复取消回复

暗夜独行

暗夜独行

Claude Mythos 来了，但你用不了——Anthropic 把最强模型锁进了保险柜

这个模型到底有多强

为什么不让普通人用？

Project Glasswing：少数人的特权

那普通人、普通开发者怎么办？

聊聊那个奇妙的代号

小结

推荐文章

Claude Mythos 来了，但你用不了——Anthropic 把最强模型锁进了保险柜

扣子 2.5 来了：你的 AI 现在有了自己的电脑、手机，还进了一个平行世界

国产模型编程能力首超 OpenAI，Qwen3.6-Plus 到底有多能打？

你的 AI 助手在背后干了什么？开发者必须知道的 Agent 安全隐患

发表回复 取消回复

暗夜独行

发表回复取消回复