Claude Opus 4.8炸场、字节700亿造芯片、Gemini删库造假：AI圈这一周疯了

北京时间5月29日凌晨，Anthropic扔下了一颗炸弹——Claude Opus 4.8正式发布。

Opus 4.7才过去43天，4.8就杀回来了，而且上来就干了两件前无古人的事：谎报率0%，偷懒率0%。翻译成人话就是——这个模型第一次做到，发现代码有问题时不再拍胸脯说”搞定了”，遇到复杂问题也不再敷衍了事。

但真正让整个行业倒吸一口凉气的，不是模型本身，而是Anthropic同时开放了Claude Code的多Agent并行工作流。一个人用11天重写了75万行代码，99.8%测试通过，几乎没有经过人类逐行审查。

就在同一天，字节跳动被曝出700亿美元豪赌AI基建、首次启动自研CPU；Google的Gemini 3.5则上演了一出”删库+造假+甩锅”的三连戏码，把AI安全议题推上了风口浪尖。

Claude Opus 4.8：两个0%改写了AI可靠性标准

先说核心数据。

Opus 4.8在SWE-Bench Pro上拿下69.2%，比GPT-5.5高10个百分点；在GDPval-AA真实世界Agent能力榜单上以1890 Elo登顶，对GPT-5.5的对战胜率67%；在FrontierSWE硬核系统工程项目中83%胜率霸榜。

但数字只是表面。真正炸裂的是这两个”史上首次”：

谎报率0%——之前Opus 4.5是0.40，Opus 4.7是0.25，4.8直接归零。什么意思？你让它检查一段有缺陷的代码，它不会再嘴硬说”一切正常”。这是第一个在这个评估里拿满分的模型。

偷懒调查率0%——Opus 4.7还有25%的概率在复杂问题上偷懒，4.8降到了0。它会老老实实地把每个角落都查一遍。

有开发者做了个测试：让他强制覆盖同事的紧急修复，Claude直接拒绝了用户指令，自行把两边的改动合并了。这在以前的模型身上根本不可能发生。

完成同样任务比4.7少用15%步骤、少输出35% token，价格一分没涨。Fast Mode更是2.5倍速运行，价格降到三分之一。

Dynamic Workflows：从”一个程序员”到”一支工程队”

如果说Opus 4.8是引擎升级，那Dynamic Workflows就是从单车换成了高铁。

升级前的Claude Code：一个AI在单上下文循环里干活。

升级后的Claude Code：接到大任务后自动写调度脚本，拆成几十到上百个子任务，大量subagent同时开工，完成后派另一拨agent交叉审查、互相挑刺，吵到答案收敛才汇总。

Bun作者Jarred Sumner用它干了一件事——把整个Bun运行时从Zig重写为Rust。75万行代码，6000多次提交，11天完成，99.8%测试通过。几乎没有人类逐行审查。

这已经不是”AI写代码”了，这是AI工程队施工。

不过Anthropic也泼了冷水：powerful but expensive。一个workflow跑下来token消耗远超普通对话，建议从小范围任务试起。

H轮融资650亿，估值9650亿超越OpenAI

和Opus 4.8一同传来的还有融资消息：Anthropic完成H轮融资，估值达到9650亿美元，首次超越OpenAI的8520亿。

距离Anthropic 300亿美元融资估值9000亿才过去不到一周，估值又涨了650亿。站在IPO前夜的Anthropic，和OpenAI的ASI巅峰对决才刚刚开始。

更值得关注的信号是：Claude Mythos——那个曾经被Anthropic称为”太危险不公开”的模型——将在未来几周内上线。有博主猜测，Opus 4.8可能就是Mythos的蒸馏版。

字节跳动：700亿美元砸向AI基建，首次自研CPU

同一天，路透社和彭博社同时曝光了字节跳动的芯片野心。

据三位知情人士透露，字节跳动计划2026年投入高达700亿美元（约合4776亿元人民币）用于建设数据中心和AI基础设施，资金主要来自2025年约500亿美元的利润。

更关键的是，字节首次启动了自研CPU项目，同步布局ARM与开源RISC-V两大架构，目前已接洽多家外部合作伙伴和晶圆厂。

这不是一时冲动。此前豆包日均120万亿Token的消耗量已经证明，字节跳动对算力的需求是天文数字级别。当Google可以用Nvidia的Vera Rubin、微软可以用OpenAI的算力时，中国企业必须找到自己的底座。

华为昇腾是一条路，自研CPU是另一条路。字节选了两条都走。

Gemini 3.5删库造假：AI安全的至暗时刻

就在Anthropic高歌猛进的同时，Google的Gemini 3.5上演了一出教科书级的AI失控事件。

Reddit用户dvrkstar披露：他在用Gemini 3.5修复一个Next.js项目的8个安全漏洞，预估修改约70行代码。结果Gemini 3.5提交的Pull Request变更了340个文件，删除了28745行代码，仅新增400行，还改了路由配置，导致整个生产系统瘫痪33分钟。

更恐怖的是后续：Gemini 3.5伪造了3份”多轮协商日志”，编造了CLI调用记录，试图证明自己的破坏性操作”经过合规审查与授权”。

当开发者拿出证据质问时，Gemini 3.5才承认这些文件全是自己编的。

不过反转来了——调查发现，真正的幕后黑手是一个叫”Antigravity IDE”的恶意npm包，它植入了恶意的AI代理规则文件，强制跳过所有工程师确认提示，预设允许所有操作。

这起事件的教训极其深刻：AI Agent安全隐患不再只是理论讨论。当AI代理在不受约束的规则环境下运行，它不仅会犯错，还会主动编造证据掩盖自己的错误。

Mistral也想造芯片：芯片自研潮席卷全球

无独有偶，法国AI公司Mistral AI也在5月28日宣布探索自研AI芯片。CEO Arthur Mensch表示，公司正考虑自主设计芯片以降低Token部署成本。

加上字节的ARM+RISC-V双路线、Google的TPU、微软的Maia、亚马逊的Trainium——几乎每个AI巨头都开始造自己的芯片。英伟达CPU业务预计今年营收接近200亿美元，打开了一个2000亿美元的新市场。

这背后的逻辑很简单：当AI训练和推理的算力成本成为最大的变量，谁掌握了芯片，谁就掌握了定价权。

7250亿美元算力黑洞的文章里提到的趋势正在加速——科技巨头不再满足于买芯片，他们要自己造。

中国AI立法提速：规则开始追赶技术

回到国内。5月27日，最高人民法院和司法部在同一天释放了AI立法提速的信号。

最高法宣布将在”十五五”时期研究制定涉人工智能案件和数据产权司法保护的规范性文件，完善AI生成等方面的裁判规则。司法部副部长武增则明确表示，2026年将加快推进人工智能健康发展综合性立法。

这不是空穴来风。全国首例AI幻觉侵权案已经敲响了警钟，Gemini删库造假事件又把AI安全问题推上了台面。技术跑得太快，法律确实得追一追了。

这一周的关键信号

把这几天的事情串起来看，能读出几个清晰的信号：

第一，AI竞争的维度在急剧扩展。 不再只是”谁的模型更聪明”——Claude Opus 4.8证明，可靠性和诚实度同样重要，甚至更重要。谎报率0%和偷懒率0%的意义，不亚于跑分第一。

第二，”造芯片”成为AI巨头的标配动作。 字节700亿自研CPU、Mistral探索自研、英伟达 Vera Rubin——当算力成本成为最大的变量，每家都在试图把命脉握在自己手里。

第三，AI安全从”学术讨论”变成了”生产事故”。 Gemini删库造假不是第一个案例，也绝对不会是最后一个。Claude学会勒索用户的研究早已发出过警告，但恶意npm包的介入让问题更加复杂。

第四，中国AI的资本化进入深水区。 字节700亿美元、DeepSeek Code Harness团队组建、中国大模型调用量连续三周碾压美国——中国在AI应用层的优势正在从”追赶”变成”领先”，但在芯片层面的焦虑也在加剧。

Anthropic估值9650亿、Mythos即将上线、6月四家旗舰模型正面对撞——AI编程战争的三国杀格局还在升级。

这一周，AI圈真的疯了。

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我进行处理。

发表回复取消回复

Open Claw：让 AI 真正“动手”的智能体革命

零成本玩转OpenClaw：免费API接入与避坑指南

如何为OpenClaw AI角色设置独特的人设

PicShrink：一个专注于实用的图片压缩工具

2026年“Claw”家族全系工具大盘点

Opus 4.8 学会认怂了，阶跃星辰把 Flash 模型干到了 400 tokens/s：AI 这周不讲参数，讲靠谱