Google认输、微软封王、马斯克偷家：AI编程战争进入三国杀时代

5月25日，AI圈同时炸了三件事。分开看各自精彩，放在一起，指向同一个结论：AI编程战争正式进入了谁都没有绝对优势的「三国杀」阶段。

Google CEO罕见认输：「编程确实落后了」

最让人意外的第一条。

5月24日，Google CEO桑达尔·皮查伊做客《纽约时报》科技播客 Hard Fork。这个时间点很微妙——Google I/O刚闭幕没几天，Gemini 3.5 Flash刚发完。按常理，CEO这时候上节目应该是来晒成绩单的。

结果皮查伊开场就来了一句硅谷CEO嘴里几乎听不到的话：

我们的模型在文本、音频和通用推理上极具竞争力，但在代理式编程和指令遵循上确实稍逊一筹。

「稍逊一筹」是中文媒体的润色。原话里皮查伊的态度更直接——他承认这是Google当前「最显著的短板」，并把编程定位为「必须坚守的核心前沿」。

还有一个细节：皮查伊同时透露 Gemini 3.5 Flash 出现了性能退化，团队正在通过后训练紧急修复。一个刚在I/O上发布的主力模型，CEO转头在播客上说它在退化——这事比「承认落后」本身更说明问题。

皮查伊还说了句大实话：「这个领域30到60天就仿佛跨越了五年。」

这话真不是夸张。从4月到现在，Kimi K2.6开源直逼Claude、OpenAI重组押注Agent、DeepSeek组建Code Harness团队——编程AI的牌桌两个月洗了好几轮。而Google，坐拥Chrome、Android、Search三大分发渠道的巨无霸，在这张牌桌上，皮查伊自己承认坐的是末席。

微软封王：Fara1.5在浏览器Agent上碾压全场

皮查伊认输的同一天，微软扔出了一份基准测试数据。

微软研究院AI Frontiers实验室在5月23日发布了Fara1.5系列浏览器Agent模型。三个版本——4B、9B、27B——参数不大，但数据相当暴力。

Online-Mind2Web 基准测试端到端成功率（136个网站、300个真实网页任务）：

Fara1.5-27B（微软）：72.0%
Yutori Navigator n1：64.7%
OpenAI Operator：58.3%
Gemini 2.5 Computer Use：57.3%
Fara1.5-4B（微软，仅4B参数）：57.3%

72%对58%。这不是险胜，是差了将近14个百分点。更诛心的是，微软最小的4B版本就已经跟OpenAI Operator和Gemini 2.5打平了——一个4B的小模型，干掉了两个巨头的旗舰Agent。

Fara1.5的运作方式也很有意思。它跑在一个叫 MagenticLite 的沙盒浏览器里，每做一步决策只接收三样东西：最近三帧浏览器截图、完整的对话历史、当前任务描述。然后走「观察→思考→行动」循环——看完截图，想一下，输出一个原子操作（点这里、输入那个、滚动页面）。

没有DOM解析，没有CSS选择器，没有XPath。纯视觉驱动。

训练数据约200万条：60%是真实网页操作轨迹，12.8%合成环境，12.5%表单填写和用户交互。换句话说，Fara1.5是「看人类怎么用浏览器」学会的，不是靠规则引擎硬编码出来的。

安全方面也考虑了。在三种情况下Fara1.5会主动停下：需要用户个人信息、任务描述不够清楚、即将执行不可逆操作（比如支付）。停下来，问你，等你确认了再继续。

但整件事情里最值得琢磨的细节是另一个：Fara1.5的底座模型是Qwen3.5，阿里通义千问。

微软官方博客原话：「We select Qwen3.5 as our base model given its strong grounding and reasoning capabilities.」全球目前最强的浏览器Agent，跑在中国模型的肩膀上。

这件事的信息量比72%的基准分数更大。它说明了两点：第一，在Agent这个2026年最重要的AI方向上，开源中国模型已经好到让微软研究院拿来当底座；第二，微软不在乎底座是谁家的——谁能赢基准测试，谁就能上车。

马斯克偷家：Grok V9要当「编程特化」的搅局者

Fara1.5刷榜的同一天，马斯克在X上宣布：Grok V9-Medium训练完成。

1.5万亿参数。是当前线上主力V8-Small（0.5T）的三倍。

但参数规模不是重点。重点是马斯克给V9-Medium的定位——编程特化。

根据xAI透露的细节，V9-Medium在补充训练阶段大规模引入了Cursor的真实工程数据。Cursor是目前最主流的AI编程编辑器，沉淀了海量的代码补全、多文件重构、Bug定位和调试路径数据。xAI的选择很直白：不走「通用语料→微调编程」的老路，直接把专业开发者的真实工程思维灌进模型。

马斯克自己的说法更直接：当前V8-Small在「代码数据质量、多样性、比例平衡上存在明显短板」，V9-Medium就是为解决这个痛点设计的。

同时，V9-Medium针对NVIDIA Blackwell架构做了深度优化。根据官方数据，单位token推理成本降至V8的约1/35。这意味着一个1.5T参数的编程特化模型，跑起来的成本可能跟今天的百亿参数模型差不多。

预计2-3周内上线，大概率6月中旬。

三国杀的底层逻辑

把三条新闻拼在一起，AI编程战争的版图是这样的：

Google：有全球最强的分发渠道——Chrome 30亿用户、Android、Search——但CEO亲口承认模型编程能力落后。Google I/O上没推Mythos级别的超大模型，押注的是「足够便宜和快、部署到十亿用户」的分发策略。问题是，如果模型本身不太行，分发给十亿人用也没用。

微软：有目前最强的浏览器Agent，但底座是阿里的Qwen3.5，不是自家的。微软的策略很务实——谁好就用谁。但这也意味着在核心模型层，微软没有自己的「发动机」。另外Fara1.5目前还是研究项目，离真正的产品化还有距离。

xAI（马斯克）：有1.5T参数的编程特化大模型在路上，算力基础设施（Blackwell万卡集群）也是最强的——别忘了，SpaceX刚在S-1招股书中披露了与Anthropic的450亿美元算力合同，马斯克的算力家底比外界想象的厚得多。但xAI的开发者生态几乎为零——没有IDE插件，没有API生态，没有企业客户基础。光有模型，没人用，等于零。

Anthropic / OpenAI：Claude和Codex仍是编程AI的事实标准。Anthropic刚融了300亿美元、估值破9000亿，OpenAI的Codex已经能控制锁屏Mac。但OpenAI Operator在Fara1.5面前输了14个百分点，说明先发优势正在被追平。

DeepSeek：Code Harness团队刚组建（ACM金牌得主崔添翼挂帅），V4-Pro API永久降价75%。DeepSeek V4开源+碾压式低价+自建编程工具团队——如果三者形成合力，威力不可小觑。

没有一家有绝对优势。Google有渠道但缺模型，微软有Agent但缺底座，xAI有模型但缺生态，Anthropic/OpenAI有先发但正在被追平，DeepSeek有性价比但团队刚起步。

这就是三国杀——谁也灭不了谁，但谁都不敢停下来。

对中国开发者的三个信号

从这场乱战里，能读出三个跟中国开发者直接相关的信号。

第一，中国模型正在从「追赶者」变成「基础设施」。 微软研究院选Qwen3.5做Fara1.5的底座，这是一个标志性事件。它不是「中国模型在某榜单上超过了某某某」那种PR稿，而是一个实打实的工程决策——全球最强的浏览器Agent，跑在中国模型上。中国模型在OpenRouter上的占比已经超过60%，这个数字和微软的选择放在一起看，结论很清楚：在Agent这个方向上，中国模型不是可选项，而是最优解之一。

第二，编程AI的「价格屠刀」已经砍到了骨头。 DeepSeek V4-Pro缓存命中0.025元/百万tokens，Grok V9-Medium推理成本降到1/35。编程AI正在从奢侈品变成水电煤。以前中型团队用AI编程，Token账单可能吓人；现在，价格已经低到你可以把AI当「不要钱的实习生」随意差遣。对个人开发者来说，这意味着编程AI的工具民主化已经实质完成。

第三，浏览器Agent是下一个爆点。 Fara1.5的72%成功率说明，浏览器Agent从实验室玩具到可商用产品的距离正在急剧缩短。对前端开发者来说，一个新的问题正在浮现：怎么设计让Agent能「看懂」的网页？怎么让你的Web应用对AI友好？Agent安全隐患又该怎么处理？这些问题很快就会从「有趣的前瞻」变成「迫在眉睫的刚需」。

皮查伊在Hard Fork上承认编程落后的那个瞬间，让人想起2014年微软CEO纳德拉上任时说的那句话：「我们这个行业不尊重传统，只尊重创新。」十年后，轮到Google坐在被追赶者的位置上。而追赶它的，有微软、有xAI、有Anthropic、有DeepSeek，还有已经成为微软Agent底座的中国模型。

AI编程的三国杀，这才刚开局。

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我进行处理。

发表回复取消回复

Open Claw：让 AI 真正“动手”的智能体革命

零成本玩转OpenClaw：免费API接入与避坑指南

如何为OpenClaw AI角色设置独特的人设

PicShrink：一个专注于实用的图片压缩工具

2026年“Claw”家族全系工具大盘点

GPT-5.6泄露、Codex免费开路：被围殴的OpenAI，开始玩命了