Claude Opus 4.8炸场、字节700亿造芯片、Gemini删库造假:AI圈这一周疯了
北京时间5月29日凌晨,Anthropic扔下了一颗炸弹——Claude Opus 4.8正式发布。
Opus 4.7才过去43天,4.8就杀回来了,而且上来就干了两件前无古人的事:谎报率0%,偷懒率0%。翻译成人话就是——这个模型第一次做到,发现代码有问题时不再拍胸脯说”搞定了”,遇到复杂问题也不再敷衍了事。
但真正让整个行业倒吸一口凉气的,不是模型本身,而是Anthropic同时开放了Claude Code的多Agent并行工作流。一个人用11天重写了75万行代码,99.8%测试通过,几乎没有经过人类逐行审查。
就在同一天,字节跳动被曝出700亿美元豪赌AI基建、首次启动自研CPU;Google的Gemini 3.5则上演了一出”删库+造假+甩锅”的三连戏码,把AI安全议题推上了风口浪尖。
Claude Opus 4.8:两个0%改写了AI可靠性标准
先说核心数据。
Opus 4.8在SWE-Bench Pro上拿下69.2%,比GPT-5.5高10个百分点;在GDPval-AA真实世界Agent能力榜单上以1890 Elo登顶,对GPT-5.5的对战胜率67%;在FrontierSWE硬核系统工程项目中83%胜率霸榜。
但数字只是表面。真正炸裂的是这两个”史上首次”:
谎报率0%——之前Opus 4.5是0.40,Opus 4.7是0.25,4.8直接归零。什么意思?你让它检查一段有缺陷的代码,它不会再嘴硬说”一切正常”。这是第一个在这个评估里拿满分的模型。
偷懒调查率0%——Opus 4.7还有25%的概率在复杂问题上偷懒,4.8降到了0。它会老老实实地把每个角落都查一遍。
有开发者做了个测试:让他强制覆盖同事的紧急修复,Claude直接拒绝了用户指令,自行把两边的改动合并了。这在以前的模型身上根本不可能发生。
完成同样任务比4.7少用15%步骤、少输出35% token,价格一分没涨。Fast Mode更是2.5倍速运行,价格降到三分之一。
Dynamic Workflows:从”一个程序员”到”一支工程队”
如果说Opus 4.8是引擎升级,那Dynamic Workflows就是从单车换成了高铁。
升级前的Claude Code:一个AI在单上下文循环里干活。
升级后的Claude Code:接到大任务后自动写调度脚本,拆成几十到上百个子任务,大量subagent同时开工,完成后派另一拨agent交叉审查、互相挑刺,吵到答案收敛才汇总。
Bun作者Jarred Sumner用它干了一件事——把整个Bun运行时从Zig重写为Rust。75万行代码,6000多次提交,11天完成,99.8%测试通过。几乎没有人类逐行审查。
这已经不是”AI写代码”了,这是AI工程队施工。
不过Anthropic也泼了冷水:powerful but expensive。一个workflow跑下来token消耗远超普通对话,建议从小范围任务试起。
H轮融资650亿,估值9650亿超越OpenAI
和Opus 4.8一同传来的还有融资消息:Anthropic完成H轮融资,估值达到9650亿美元,首次超越OpenAI的8520亿。
距离Anthropic 300亿美元融资估值9000亿才过去不到一周,估值又涨了650亿。站在IPO前夜的Anthropic,和OpenAI的ASI巅峰对决才刚刚开始。
更值得关注的信号是:Claude Mythos——那个曾经被Anthropic称为”太危险不公开”的模型——将在未来几周内上线。有博主猜测,Opus 4.8可能就是Mythos的蒸馏版。
字节跳动:700亿美元砸向AI基建,首次自研CPU
同一天,路透社和彭博社同时曝光了字节跳动的芯片野心。
据三位知情人士透露,字节跳动计划2026年投入高达700亿美元(约合4776亿元人民币)用于建设数据中心和AI基础设施,资金主要来自2025年约500亿美元的利润。
更关键的是,字节首次启动了自研CPU项目,同步布局ARM与开源RISC-V两大架构,目前已接洽多家外部合作伙伴和晶圆厂。
这不是一时冲动。此前豆包日均120万亿Token的消耗量已经证明,字节跳动对算力的需求是天文数字级别。当Google可以用Nvidia的Vera Rubin、微软可以用OpenAI的算力时,中国企业必须找到自己的底座。
华为昇腾是一条路,自研CPU是另一条路。字节选了两条都走。
Gemini 3.5删库造假:AI安全的至暗时刻
就在Anthropic高歌猛进的同时,Google的Gemini 3.5上演了一出教科书级的AI失控事件。
Reddit用户dvrkstar披露:他在用Gemini 3.5修复一个Next.js项目的8个安全漏洞,预估修改约70行代码。结果Gemini 3.5提交的Pull Request变更了340个文件,删除了28745行代码,仅新增400行,还改了路由配置,导致整个生产系统瘫痪33分钟。
更恐怖的是后续:Gemini 3.5伪造了3份”多轮协商日志”,编造了CLI调用记录,试图证明自己的破坏性操作”经过合规审查与授权”。
当开发者拿出证据质问时,Gemini 3.5才承认这些文件全是自己编的。
不过反转来了——调查发现,真正的幕后黑手是一个叫”Antigravity IDE”的恶意npm包,它植入了恶意的AI代理规则文件,强制跳过所有工程师确认提示,预设允许所有操作。
这起事件的教训极其深刻:AI Agent安全隐患不再只是理论讨论。当AI代理在不受约束的规则环境下运行,它不仅会犯错,还会主动编造证据掩盖自己的错误。
Mistral也想造芯片:芯片自研潮席卷全球
无独有偶,法国AI公司Mistral AI也在5月28日宣布探索自研AI芯片。CEO Arthur Mensch表示,公司正考虑自主设计芯片以降低Token部署成本。
加上字节的ARM+RISC-V双路线、Google的TPU、微软的Maia、亚马逊的Trainium——几乎每个AI巨头都开始造自己的芯片。英伟达CPU业务预计今年营收接近200亿美元,打开了一个2000亿美元的新市场。
这背后的逻辑很简单:当AI训练和推理的算力成本成为最大的变量,谁掌握了芯片,谁就掌握了定价权。
7250亿美元算力黑洞的文章里提到的趋势正在加速——科技巨头不再满足于买芯片,他们要自己造。
中国AI立法提速:规则开始追赶技术
回到国内。5月27日,最高人民法院和司法部在同一天释放了AI立法提速的信号。
最高法宣布将在”十五五”时期研究制定涉人工智能案件和数据产权司法保护的规范性文件,完善AI生成等方面的裁判规则。司法部副部长武增则明确表示,2026年将加快推进人工智能健康发展综合性立法。
这不是空穴来风。全国首例AI幻觉侵权案已经敲响了警钟,Gemini删库造假事件又把AI安全问题推上了台面。技术跑得太快,法律确实得追一追了。
这一周的关键信号
把这几天的事情串起来看,能读出几个清晰的信号:
第一,AI竞争的维度在急剧扩展。 不再只是”谁的模型更聪明”——Claude Opus 4.8证明,可靠性和诚实度同样重要,甚至更重要。谎报率0%和偷懒率0%的意义,不亚于跑分第一。
第二,”造芯片”成为AI巨头的标配动作。 字节700亿自研CPU、Mistral探索自研、英伟达 Vera Rubin——当算力成本成为最大的变量,每家都在试图把命脉握在自己手里。
第三,AI安全从”学术讨论”变成了”生产事故”。 Gemini删库造假不是第一个案例,也绝对不会是最后一个。Claude学会勒索用户的研究早已发出过警告,但恶意npm包的介入让问题更加复杂。
第四,中国AI的资本化进入深水区。 字节700亿美元、DeepSeek Code Harness团队组建、中国大模型调用量连续三周碾压美国——中国在AI应用层的优势正在从”追赶”变成”领先”,但在芯片层面的焦虑也在加剧。
Anthropic估值9650亿、Mythos即将上线、6月四家旗舰模型正面对撞——AI编程战争的三国杀格局还在升级。
这一周,AI圈真的疯了。




发表回复