Opus 4.8 学会认怂了，阶跃星辰把 Flash 模型干到了 400 tokens/s：AI 这周不讲参数，讲靠谱

2026年5月29日，两个几乎同时发生的发布，指向了同一个方向——AI 行业正在从”能不能做”转向”能不能用”。

一、Opus 4.8：一个学会说”我不知道”的模型

Anthropic 在5月29日正式推送了 Claude Opus 4.8。

距离 Opus 4.7 发布只过了43天。这次更新没有刷榜式的参数飞跃，但有一个细节很耐人寻味——代码缺陷逃逸概率降到了前代的 1/4，模型会主动标注不确定的内容，不再硬编答案。

用一位开发者的话说：”它终于不装了。”

几个值得关注的变化

① 诚实度成为核心指标

Opus 4.8 的对齐能力评分（Misaligned behavior）是 1.83，而 4.7 是 2.48。这个数字越接近 0 越好。Anthropic 内部测试版 Claude Mythos Preview 是 1.78——也就是说，4.8 的对齐水平已经非常接近那个”因为太强所以不敢公开发布”的 Mythos。

这意味着什么？意味着模型在”该说不知道的时候说不知道”这件事上，进步幅度比它在 benchmark 上的分数提升更值得关注。

② 动态工作流（Dynamic Workflows）

这是这次更新里最”暴力”的功能：Claude Code 现在可以在一次会话里并行调度数百个子 agent协同干活。

官方给的例子是”跨数十万行代码的全库迁移”——以前你得把任务拆好再喂给模型，现在它自己会拆、自己会派活、自己会收口。

目前这个功能仅向企业版、团队版和 Max 套餐用户开放，还在研究预览阶段。

③ 可调”努力度”（Effort Control）

所有套餐用户现在可以在模型选择器旁边调节 Claude 的思考深度。调高，思考更频繁更深入；调低，响应更快，消耗的 token 更少。

编码任务的默认档位 token 消耗和 Opus 4.7 的默认档相当，但效果更好。还有 xhigh 和 max 两档，留给那种”不差这点 token”的高难度任务。

④ 成本降了 61%

在 agentic 推理任务里，Opus 4.8 的单 token 成本比 4.7 低了 61%。定价本身没变（输入 $5/百万 token，输出 $25/百万 token），但同样质量的输出，消耗的 token 少了。

跑分怎么说？

测试项目	Opus 4.8	GPT-5.5	Gemini 3.1 Pro
SWE-Bench Pro（编程）	69.2%	58.6%	54.2%
Humanity’s Last Exam（无工具）	49.8%	—	—
OSWorld-Verified（电脑操作）	83.4%	—	—
GDPval-AA（知识工作）	1890分	—	—

唯一的短板的 Terminal-Bench 2.1（终端编程），74.6%，略低于 GPT-5.5 的 78.2%。

二、阶跃星辰 Step 3.7 Flash：把 Agent 的”反应速度”拉满了

同一天，中国大模型创业公司阶跃星辰（StepFun）发布了并开源了 Step 3.7 Flash。

这个名字里的”Flash”已经提示了它的定位——快。

几个关键数字

总参数：196B（MoE 架构）+ 1.8B ViT 视觉编码器
激活参数：仅 11B（推理时实际参与计算的参数）
最高生成速度：400 tokens/s
上下文长度：256K token
开源协议：Apache 2.0

11B 激活参数跑到 400 tokens/s 意味着什么？意味着在 Agent 需要高频调用模型的多轮对话场景里，用户等得起了。

它强化的是 Agent 的”生产级”能力

阶跃星辰在发布说明里明确说了：这个模型是面向生产级 Agent设计的，不是 benchmark 展示品。

具体强化了四个方向：

原生多模态理解与执行——能直接”看”UI 界面、图表、文档、图片，把视觉信息转成结构化结果和可执行任务
联网与视觉搜索增强——信息不确定时主动发起搜索交叉验证（这一点和 Opus 4.8 的”诚实度”提升异曲同工）
高可靠工具调用——在长程多轮工作流里稳定调用 API、浏览器、终端、Office 工具，降低”跑偏”概率
Agent 生态兼容——支持主流 agent 框架的调用规范

跑分情况

测试项目	Step 3.7 Flash 得分
ClawEval 1.1（自主任务执行）	67.1%
Toolathlon（多工具协同）	49.5%
GDPval（44种职业知识工作）	45.8%
τ²-bench Telecom（通信任务）	通过率 >98%

阶跃星辰的定位很清晰：不做”最聪明”的模型，做”最适合让 Agent 稳定跑起来”的模型。

三、两件事，同一个信号

把这两个发布放在一起看，一个信号很明显：

AI 行业的竞争重心，正在从”模型有多强”转向”模型有多好用”。

Opus 4.8 的核心卖点不是”又高了 N 个百分点”，而是”它更诚实了、更便宜了、可以同时调度几百个子 agent 了”
Step 3.7 Flash 的核心卖点不是”我们又有多少个参数”，而是”400 tokens/s，适合生产环境，Apache 2.0 随便用”

这对开发者来说是好事。因为”更好用”意味着你能拿它做真正落地的东西，而不是发一条”看看我跑通了”的朋友圈就完了。

四、Mythos 还藏着没发

顺便提一句：Anthropic 在 Opus 4.8 的发布说明里确认，Claude Mythos 目前正在向”未来几周内”推进。

Mythos 是 Anthropic 内部已经做出来、但觉得”太危险所以不能随便发”的那个模型层级。目前仅有约 50 家合作机构能访问 Mythos Preview，而且仅限于网络安全场景。

Opus 4.8 的对齐能力已经接近 Mythos Preview 的水平——这既是在给 Mythos 的真正公开发布铺路，也是在暗示：Mythos 一旦放开，当前的 benchmark 格局可能会被重新洗牌。

五、对普通开发者的意义

如果你在考虑”现在用哪个模型做 Agent 开发”，这两个发布给出的参考是：

追求最强综合能力：Opus 4.8 现在是编程类 benchmark 的头名，且动态工作流功能已经在 Claude Code 里可用
追求高并发、低延迟的生产部署：Step 3.7 Flash 的 400 tokens/s 和 Apache 2.0 开源协议，对需要自建推理服务的团队很有吸引力
成本敏感场景：Opus 4.8 在 agentic 任务上比 4.7 便宜 61%，这个幅度值得认真评估一下迁移成本

参考来源：Anthropic 官方发布说明、阶跃星辰技术说明、Caixin 周刊 AI 周报（2026-05-29）

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我进行处理。

Open Claw：让 AI 真正“动手”的智能体革命

零成本玩转OpenClaw：免费API接入与避坑指南

如何为OpenClaw AI角色设置独特的人设

PicShrink：一个专注于实用的图片压缩工具

2026年“Claw”家族全系工具大盘点

9650亿估值登顶，Anthropic做对了什么？