Opus 4.8 学会认怂了,阶跃星辰把 Flash 模型干到了 400 tokens/s:AI 这周不讲参数,讲靠谱

2026年5月29日,两个几乎同时发生的发布,指向了同一个方向——AI 行业正在从”能不能做”转向”能不能用”。

一、Opus 4.8:一个学会说”我不知道”的模型

Anthropic 在5月29日正式推送了 Claude Opus 4.8

距离 Opus 4.7 发布只过了43天。这次更新没有刷榜式的参数飞跃,但有一个细节很耐人寻味——代码缺陷逃逸概率降到了前代的 1/4,模型会主动标注不确定的内容,不再硬编答案。

用一位开发者的话说:”它终于不装了。”

几个值得关注的变化

① 诚实度成为核心指标

Opus 4.8 的对齐能力评分(Misaligned behavior)是 1.83,而 4.7 是 2.48。这个数字越接近 0 越好。Anthropic 内部测试版 Claude Mythos Preview 是 1.78——也就是说,4.8 的对齐水平已经非常接近那个”因为太强所以不敢公开发布”的 Mythos。

这意味着什么?意味着模型在”该说不知道的时候说不知道”这件事上,进步幅度比它在 benchmark 上的分数提升更值得关注。

② 动态工作流(Dynamic Workflows)

这是这次更新里最”暴力”的功能:Claude Code 现在可以在一次会话里并行调度数百个子 agent协同干活。

官方给的例子是”跨数十万行代码的全库迁移”——以前你得把任务拆好再喂给模型,现在它自己会拆、自己会派活、自己会收口。

目前这个功能仅向企业版、团队版和 Max 套餐用户开放,还在研究预览阶段。

③ 可调”努力度”(Effort Control)

所有套餐用户现在可以在模型选择器旁边调节 Claude 的思考深度。调高,思考更频繁更深入;调低,响应更快,消耗的 token 更少。

编码任务的默认档位 token 消耗和 Opus 4.7 的默认档相当,但效果更好。还有 xhighmax 两档,留给那种”不差这点 token”的高难度任务。

④ 成本降了 61%

在 agentic 推理任务里,Opus 4.8 的单 token 成本比 4.7 低了 61%。定价本身没变(输入 $5/百万 token,输出 $25/百万 token),但同样质量的输出,消耗的 token 少了。

跑分怎么说?

测试项目Opus 4.8GPT-5.5Gemini 3.1 Pro
SWE-Bench Pro(编程)69.2%58.6%54.2%
Humanity’s Last Exam(无工具)49.8%
OSWorld-Verified(电脑操作)83.4%
GDPval-AA(知识工作)1890分

唯一的短板的 Terminal-Bench 2.1(终端编程),74.6%,略低于 GPT-5.5 的 78.2%。

二、阶跃星辰 Step 3.7 Flash:把 Agent 的”反应速度”拉满了

同一天,中国大模型创业公司阶跃星辰(StepFun)发布了并开源了 Step 3.7 Flash

这个名字里的”Flash”已经提示了它的定位——

几个关键数字

  • 总参数:196B(MoE 架构)+ 1.8B ViT 视觉编码器
  • 激活参数:仅 11B(推理时实际参与计算的参数)
  • 最高生成速度400 tokens/s
  • 上下文长度:256K token
  • 开源协议:Apache 2.0

11B 激活参数跑到 400 tokens/s 意味着什么?意味着在 Agent 需要高频调用模型的多轮对话场景里,用户等得起了。

它强化的是 Agent 的”生产级”能力

阶跃星辰在发布说明里明确说了:这个模型是面向生产级 Agent设计的,不是 benchmark 展示品。

具体强化了四个方向:

  1. 原生多模态理解与执行——能直接”看”UI 界面、图表、文档、图片,把视觉信息转成结构化结果和可执行任务
  2. 联网与视觉搜索增强——信息不确定时主动发起搜索交叉验证(这一点和 Opus 4.8 的”诚实度”提升异曲同工)
  3. 高可靠工具调用——在长程多轮工作流里稳定调用 API、浏览器、终端、Office 工具,降低”跑偏”概率
  4. Agent 生态兼容——支持主流 agent 框架的调用规范

跑分情况

测试项目Step 3.7 Flash 得分
ClawEval 1.1(自主任务执行)67.1%
Toolathlon(多工具协同)49.5%
GDPval(44种职业知识工作)45.8%
τ²-bench Telecom(通信任务)通过率 >98%

阶跃星辰的定位很清晰:不做”最聪明”的模型,做”最适合让 Agent 稳定跑起来”的模型。

三、两件事,同一个信号

把这两个发布放在一起看,一个信号很明显:

AI 行业的竞争重心,正在从”模型有多强”转向”模型有多好用”。

  • Opus 4.8 的核心卖点不是”又高了 N 个百分点”,而是”它更诚实了、更便宜了、可以同时调度几百个子 agent 了”
  • Step 3.7 Flash 的核心卖点不是”我们又有多少个参数”,而是”400 tokens/s,适合生产环境,Apache 2.0 随便用”

这对开发者来说是好事。因为”更好用”意味着你能拿它做真正落地的东西,而不是发一条”看看我跑通了”的朋友圈就完了。

四、Mythos 还藏着没发

顺便提一句:Anthropic 在 Opus 4.8 的发布说明里确认,Claude Mythos 目前正在向”未来几周内”推进。

Mythos 是 Anthropic 内部已经做出来、但觉得”太危险所以不能随便发”的那个模型层级。目前仅有约 50 家合作机构能访问 Mythos Preview,而且仅限于网络安全场景。

Opus 4.8 的对齐能力已经接近 Mythos Preview 的水平——这既是在给 Mythos 的真正公开发布铺路,也是在暗示:Mythos 一旦放开,当前的 benchmark 格局可能会被重新洗牌。

五、对普通开发者的意义

如果你在考虑”现在用哪个模型做 Agent 开发”,这两个发布给出的参考是:

  • 追求最强综合能力:Opus 4.8 现在是编程类 benchmark 的头名,且动态工作流功能已经在 Claude Code 里可用
  • 追求高并发、低延迟的生产部署:Step 3.7 Flash 的 400 tokens/s 和 Apache 2.0 开源协议,对需要自建推理服务的团队很有吸引力
  • 成本敏感场景:Opus 4.8 在 agentic 任务上比 4.7 便宜 61%,这个幅度值得认真评估一下迁移成本

参考来源:Anthropic 官方发布说明、阶跃星辰技术说明、Caixin 周刊 AI 周报(2026-05-29)

 

推荐阅读

  • Opus 4.8 学会认怂了,阶跃星辰把 Flash 模型干到了 400 tokens/s:AI 这周不讲参数,讲靠谱

    2026年5月29日,两个几乎同时发生的发布,指向了同一个方向——AI 行业正在从”能不能做”转向”能不能用”。 一、Opus 4.8:一个学会说&#8…

  • Claude Opus 4.8炸场、字节700亿造芯片、Gemini删库造假:AI圈这一周疯了

    Claude Opus 4.8炸场、字节700亿造芯片、Gemini删库造假:AI圈这一周疯了 北京时间5月29日凌晨,Anthropic扔下了一颗炸弹——Claude Opus 4.8正式发布。 O…

  • 260亿买一个AI程序员、110万人替Claude卖货:AI行业不比模型了,比渠道

    5月27日,Cognition AI完成超10亿美元融资,估值260亿美元。 三年前这家公司还不存在。它的核心产品Devin——一个AI程序员——去年5月年化收入3700万美元,现在4.92亿,翻了1…

  • GPT-5.6泄露、Codex免费开路:被围殴的OpenAI,开始玩命了

    这周AI圈最戏剧性的一幕,不是某家公司发了什么新产品,而是一群开发者在OpenAI自己的后台日志里,把GPT-5.6给”抓”出来了。 5月26日,多位开发者发现,OpenAI …

暗夜独行