Google认输、微软封王、马斯克偷家:AI编程战争进入三国杀时代

5月25日,AI圈同时炸了三件事。分开看各自精彩,放在一起,指向同一个结论:AI编程战争正式进入了谁都没有绝对优势的「三国杀」阶段。

Google CEO罕见认输:「编程确实落后了」

最让人意外的第一条。

5月24日,Google CEO桑达尔·皮查伊做客《纽约时报》科技播客 Hard Fork。这个时间点很微妙——Google I/O刚闭幕没几天,Gemini 3.5 Flash刚发完。按常理,CEO这时候上节目应该是来晒成绩单的。

结果皮查伊开场就来了一句硅谷CEO嘴里几乎听不到的话:

我们的模型在文本、音频和通用推理上极具竞争力,但在代理式编程和指令遵循上确实稍逊一筹。

「稍逊一筹」是中文媒体的润色。原话里皮查伊的态度更直接——他承认这是Google当前「最显著的短板」,并把编程定位为「必须坚守的核心前沿」。

还有一个细节:皮查伊同时透露 Gemini 3.5 Flash 出现了性能退化,团队正在通过后训练紧急修复。一个刚在I/O上发布的主力模型,CEO转头在播客上说它在退化——这事比「承认落后」本身更说明问题。

皮查伊还说了句大实话:「这个领域30到60天就仿佛跨越了五年。」

这话真不是夸张。从4月到现在,Kimi K2.6开源直逼ClaudeOpenAI重组押注AgentDeepSeek组建Code Harness团队——编程AI的牌桌两个月洗了好几轮。而Google,坐拥Chrome、Android、Search三大分发渠道的巨无霸,在这张牌桌上,皮查伊自己承认坐的是末席。

微软封王:Fara1.5在浏览器Agent上碾压全场

皮查伊认输的同一天,微软扔出了一份基准测试数据。

微软研究院AI Frontiers实验室在5月23日发布了Fara1.5系列浏览器Agent模型。三个版本——4B、9B、27B——参数不大,但数据相当暴力。

Online-Mind2Web 基准测试端到端成功率(136个网站、300个真实网页任务):

  • Fara1.5-27B(微软):72.0%
  • Yutori Navigator n1:64.7%
  • OpenAI Operator:58.3%
  • Gemini 2.5 Computer Use:57.3%
  • Fara1.5-4B(微软,仅4B参数):57.3%

72%对58%。这不是险胜,是差了将近14个百分点。更诛心的是,微软最小的4B版本就已经跟OpenAI Operator和Gemini 2.5打平了——一个4B的小模型,干掉了两个巨头的旗舰Agent。

Fara1.5的运作方式也很有意思。它跑在一个叫 MagenticLite 的沙盒浏览器里,每做一步决策只接收三样东西:最近三帧浏览器截图、完整的对话历史、当前任务描述。然后走「观察→思考→行动」循环——看完截图,想一下,输出一个原子操作(点这里、输入那个、滚动页面)。

没有DOM解析,没有CSS选择器,没有XPath。纯视觉驱动。

训练数据约200万条:60%是真实网页操作轨迹,12.8%合成环境,12.5%表单填写和用户交互。换句话说,Fara1.5是「看人类怎么用浏览器」学会的,不是靠规则引擎硬编码出来的。

安全方面也考虑了。在三种情况下Fara1.5会主动停下:需要用户个人信息、任务描述不够清楚、即将执行不可逆操作(比如支付)。停下来,问你,等你确认了再继续。

但整件事情里最值得琢磨的细节是另一个:Fara1.5的底座模型是Qwen3.5,阿里通义千问。

微软官方博客原话:「We select Qwen3.5 as our base model given its strong grounding and reasoning capabilities.」全球目前最强的浏览器Agent,跑在中国模型的肩膀上。

这件事的信息量比72%的基准分数更大。它说明了两点:第一,在Agent这个2026年最重要的AI方向上,开源中国模型已经好到让微软研究院拿来当底座;第二,微软不在乎底座是谁家的——谁能赢基准测试,谁就能上车。

马斯克偷家:Grok V9要当「编程特化」的搅局者

Fara1.5刷榜的同一天,马斯克在X上宣布:Grok V9-Medium训练完成。

1.5万亿参数。是当前线上主力V8-Small(0.5T)的三倍。

但参数规模不是重点。重点是马斯克给V9-Medium的定位——编程特化。

根据xAI透露的细节,V9-Medium在补充训练阶段大规模引入了Cursor的真实工程数据。Cursor是目前最主流的AI编程编辑器,沉淀了海量的代码补全、多文件重构、Bug定位和调试路径数据。xAI的选择很直白:不走「通用语料→微调编程」的老路,直接把专业开发者的真实工程思维灌进模型。

马斯克自己的说法更直接:当前V8-Small在「代码数据质量、多样性、比例平衡上存在明显短板」,V9-Medium就是为解决这个痛点设计的。

同时,V9-Medium针对NVIDIA Blackwell架构做了深度优化。根据官方数据,单位token推理成本降至V8的约1/35。这意味着一个1.5T参数的编程特化模型,跑起来的成本可能跟今天的百亿参数模型差不多。

预计2-3周内上线,大概率6月中旬。

三国杀的底层逻辑

把三条新闻拼在一起,AI编程战争的版图是这样的:

Google:有全球最强的分发渠道——Chrome 30亿用户、Android、Search——但CEO亲口承认模型编程能力落后。Google I/O上没推Mythos级别的超大模型,押注的是「足够便宜和快、部署到十亿用户」的分发策略。问题是,如果模型本身不太行,分发给十亿人用也没用。

微软:有目前最强的浏览器Agent,但底座是阿里的Qwen3.5,不是自家的。微软的策略很务实——谁好就用谁。但这也意味着在核心模型层,微软没有自己的「发动机」。另外Fara1.5目前还是研究项目,离真正的产品化还有距离。

xAI(马斯克):有1.5T参数的编程特化大模型在路上,算力基础设施(Blackwell万卡集群)也是最强的——别忘了,SpaceX刚在S-1招股书中披露了与Anthropic的450亿美元算力合同,马斯克的算力家底比外界想象的厚得多。但xAI的开发者生态几乎为零——没有IDE插件,没有API生态,没有企业客户基础。光有模型,没人用,等于零。

Anthropic / OpenAI:Claude和Codex仍是编程AI的事实标准。Anthropic刚融了300亿美元、估值破9000亿,OpenAI的Codex已经能控制锁屏Mac。但OpenAI Operator在Fara1.5面前输了14个百分点,说明先发优势正在被追平。

DeepSeekCode Harness团队刚组建(ACM金牌得主崔添翼挂帅),V4-Pro API永久降价75%。DeepSeek V4开源+碾压式低价+自建编程工具团队——如果三者形成合力,威力不可小觑。

没有一家有绝对优势。Google有渠道但缺模型,微软有Agent但缺底座,xAI有模型但缺生态,Anthropic/OpenAI有先发但正在被追平,DeepSeek有性价比但团队刚起步。

这就是三国杀——谁也灭不了谁,但谁都不敢停下来。

对中国开发者的三个信号

从这场乱战里,能读出三个跟中国开发者直接相关的信号。

第一,中国模型正在从「追赶者」变成「基础设施」。 微软研究院选Qwen3.5做Fara1.5的底座,这是一个标志性事件。它不是「中国模型在某榜单上超过了某某某」那种PR稿,而是一个实打实的工程决策——全球最强的浏览器Agent,跑在中国模型上。中国模型在OpenRouter上的占比已经超过60%,这个数字和微软的选择放在一起看,结论很清楚:在Agent这个方向上,中国模型不是可选项,而是最优解之一。

第二,编程AI的「价格屠刀」已经砍到了骨头。 DeepSeek V4-Pro缓存命中0.025元/百万tokens,Grok V9-Medium推理成本降到1/35。编程AI正在从奢侈品变成水电煤。以前中型团队用AI编程,Token账单可能吓人;现在,价格已经低到你可以把AI当「不要钱的实习生」随意差遣。对个人开发者来说,这意味着编程AI的工具民主化已经实质完成。

第三,浏览器Agent是下一个爆点。 Fara1.5的72%成功率说明,浏览器Agent从实验室玩具到可商用产品的距离正在急剧缩短。对前端开发者来说,一个新的问题正在浮现:怎么设计让Agent能「看懂」的网页?怎么让你的Web应用对AI友好?Agent安全隐患又该怎么处理?这些问题很快就会从「有趣的前瞻」变成「迫在眉睫的刚需」。


皮查伊在Hard Fork上承认编程落后的那个瞬间,让人想起2014年微软CEO纳德拉上任时说的那句话:「我们这个行业不尊重传统,只尊重创新。」十年后,轮到Google坐在被追赶者的位置上。而追赶它的,有微软、有xAI、有Anthropic、有DeepSeek,还有已经成为微软Agent底座的中国模型。

AI编程的三国杀,这才刚开局。

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

推荐阅读

  • Google认输、微软封王、马斯克偷家:AI编程战争进入三国杀时代

    5月25日,AI圈同时炸了三件事。分开看各自精彩,放在一起,指向同一个结论:AI编程战争正式进入了谁都没有绝对优势的「三国杀」阶段。 Google CEO罕见认输:「编程确实落后了」 最让人意外的第一…

  • DeepSeek的“隆中对”:700亿到账,第一刀砍向AI编程

    2026年5月,AI圈最忙的公司不是OpenAI,不是Anthropic,而是DeepSeek。 过去一周,这家中国AI公司扔出了三颗炸弹:融资700亿人民币(约100亿美元)、密集放出10+个Age…

  • Anthropic登顶9000亿、Grok没人用:AI行业的冰火两重天

    5月23日这一天,AI圈同时发生了几件事,放在一起看特别有意思。 Anthropic宣布即将完成300亿美元融资,估值突破9000亿美元,正式超越OpenAI成为全球最贵AI创业公司。同一天,The …

  • 联想AI收入翻倍,微软却在“裁员”AI:同一场革命,两张完全不同的账单

    5月22日,两个新闻放在一起看,AI行业的真相就出来了。 昨天,联想发了财报。2025/26财年,AI相关收入同比增长105%,全年集团营收突破5899亿元人民币,股价直接飙了15%。杨元庆说公司现在…

暗夜独行