2026年5月29日,两个几乎同时发生的发布,指向了同一个方向——AI 行业正在从”能不能做”转向”能不能用”。
一、Opus 4.8:一个学会说”我不知道”的模型
Anthropic 在5月29日正式推送了 Claude Opus 4.8。
距离 Opus 4.7 发布只过了43天。这次更新没有刷榜式的参数飞跃,但有一个细节很耐人寻味——代码缺陷逃逸概率降到了前代的 1/4,模型会主动标注不确定的内容,不再硬编答案。
用一位开发者的话说:”它终于不装了。”
几个值得关注的变化
① 诚实度成为核心指标
Opus 4.8 的对齐能力评分(Misaligned behavior)是 1.83,而 4.7 是 2.48。这个数字越接近 0 越好。Anthropic 内部测试版 Claude Mythos Preview 是 1.78——也就是说,4.8 的对齐水平已经非常接近那个”因为太强所以不敢公开发布”的 Mythos。
这意味着什么?意味着模型在”该说不知道的时候说不知道”这件事上,进步幅度比它在 benchmark 上的分数提升更值得关注。
② 动态工作流(Dynamic Workflows)
这是这次更新里最”暴力”的功能:Claude Code 现在可以在一次会话里并行调度数百个子 agent协同干活。
官方给的例子是”跨数十万行代码的全库迁移”——以前你得把任务拆好再喂给模型,现在它自己会拆、自己会派活、自己会收口。
目前这个功能仅向企业版、团队版和 Max 套餐用户开放,还在研究预览阶段。
③ 可调”努力度”(Effort Control)
所有套餐用户现在可以在模型选择器旁边调节 Claude 的思考深度。调高,思考更频繁更深入;调低,响应更快,消耗的 token 更少。
编码任务的默认档位 token 消耗和 Opus 4.7 的默认档相当,但效果更好。还有 xhigh 和 max 两档,留给那种”不差这点 token”的高难度任务。
④ 成本降了 61%
在 agentic 推理任务里,Opus 4.8 的单 token 成本比 4.7 低了 61%。定价本身没变(输入 $5/百万 token,输出 $25/百万 token),但同样质量的输出,消耗的 token 少了。
跑分怎么说?
| 测试项目 | Opus 4.8 | GPT-5.5 | Gemini 3.1 Pro |
|---|---|---|---|
| SWE-Bench Pro(编程) | 69.2% | 58.6% | 54.2% |
| Humanity’s Last Exam(无工具) | 49.8% | — | — |
| OSWorld-Verified(电脑操作) | 83.4% | — | — |
| GDPval-AA(知识工作) | 1890分 | — | — |
唯一的短板的 Terminal-Bench 2.1(终端编程),74.6%,略低于 GPT-5.5 的 78.2%。
二、阶跃星辰 Step 3.7 Flash:把 Agent 的”反应速度”拉满了
同一天,中国大模型创业公司阶跃星辰(StepFun)发布了并开源了 Step 3.7 Flash。
这个名字里的”Flash”已经提示了它的定位——快。
几个关键数字
- 总参数:196B(MoE 架构)+ 1.8B ViT 视觉编码器
- 激活参数:仅 11B(推理时实际参与计算的参数)
- 最高生成速度:400 tokens/s
- 上下文长度:256K token
- 开源协议:Apache 2.0
11B 激活参数跑到 400 tokens/s 意味着什么?意味着在 Agent 需要高频调用模型的多轮对话场景里,用户等得起了。
它强化的是 Agent 的”生产级”能力
阶跃星辰在发布说明里明确说了:这个模型是面向生产级 Agent设计的,不是 benchmark 展示品。
具体强化了四个方向:
- 原生多模态理解与执行——能直接”看”UI 界面、图表、文档、图片,把视觉信息转成结构化结果和可执行任务
- 联网与视觉搜索增强——信息不确定时主动发起搜索交叉验证(这一点和 Opus 4.8 的”诚实度”提升异曲同工)
- 高可靠工具调用——在长程多轮工作流里稳定调用 API、浏览器、终端、Office 工具,降低”跑偏”概率
- Agent 生态兼容——支持主流 agent 框架的调用规范
跑分情况
| 测试项目 | Step 3.7 Flash 得分 |
|---|---|
| ClawEval 1.1(自主任务执行) | 67.1% |
| Toolathlon(多工具协同) | 49.5% |
| GDPval(44种职业知识工作) | 45.8% |
| τ²-bench Telecom(通信任务) | 通过率 >98% |
阶跃星辰的定位很清晰:不做”最聪明”的模型,做”最适合让 Agent 稳定跑起来”的模型。
三、两件事,同一个信号
把这两个发布放在一起看,一个信号很明显:
AI 行业的竞争重心,正在从”模型有多强”转向”模型有多好用”。
- Opus 4.8 的核心卖点不是”又高了 N 个百分点”,而是”它更诚实了、更便宜了、可以同时调度几百个子 agent 了”
- Step 3.7 Flash 的核心卖点不是”我们又有多少个参数”,而是”400 tokens/s,适合生产环境,Apache 2.0 随便用”
这对开发者来说是好事。因为”更好用”意味着你能拿它做真正落地的东西,而不是发一条”看看我跑通了”的朋友圈就完了。
四、Mythos 还藏着没发
顺便提一句:Anthropic 在 Opus 4.8 的发布说明里确认,Claude Mythos 目前正在向”未来几周内”推进。
Mythos 是 Anthropic 内部已经做出来、但觉得”太危险所以不能随便发”的那个模型层级。目前仅有约 50 家合作机构能访问 Mythos Preview,而且仅限于网络安全场景。
Opus 4.8 的对齐能力已经接近 Mythos Preview 的水平——这既是在给 Mythos 的真正公开发布铺路,也是在暗示:Mythos 一旦放开,当前的 benchmark 格局可能会被重新洗牌。
五、对普通开发者的意义
如果你在考虑”现在用哪个模型做 Agent 开发”,这两个发布给出的参考是:
- 追求最强综合能力:Opus 4.8 现在是编程类 benchmark 的头名,且动态工作流功能已经在 Claude Code 里可用
- 追求高并发、低延迟的生产部署:Step 3.7 Flash 的 400 tokens/s 和 Apache 2.0 开源协议,对需要自建推理服务的团队很有吸引力
- 成本敏感场景:Opus 4.8 在 agentic 任务上比 4.7 便宜 61%,这个幅度值得认真评估一下迁移成本
参考来源:Anthropic 官方发布说明、阶跃星辰技术说明、Caixin 周刊 AI 周报(2026-05-29)



