昨天(6月2日),AI圈同时发生了三件各自独立、但指向同一个方向的事。
微软在Build大会上扔出一颗炸弹——自研编程模型Project Polaris,8月起取代GPT-4 Turbo成为GitHub Copilot的默认模型。同一天,阿里发布了Qwen3.7-Plus,一个同时能操作GUI界面和命令行的多模态Agent模型,在视觉理解基准ScreenSpot Pro上拿到79分,直接杀入全球第一梯队。
再加上Alphabet当天确认的800亿美元股权融资方案(巴菲特亲自掏了100亿),三条新闻加在一起,画出一个越来越清晰的轮廓:AI巨头们正在系统性地降低对外部模型的依赖,”自研为王”不再是口号,而是真金白银的战略执行。
微软Polaris:从OpenAI的最大金主,变成最直接的竞争者
Project Polaris是一个混合专家(MoE)架构的编程模型。和普通大模型”一锅炖”不同,它给不同编程语言分配了专用子模块——Rust有Rust的专家,Haskell有Haskell的专家。这解决了AI编程领域一个长期痛点:主流模型在Python、JavaScript上表现不错,但一旦碰到Rust、Go、Haskell这些”低资源语言”,代码质量就断崖式下降。
Polaris的内部基准测试显示,在HumanEval和MBPP上已经超过GPT-4 Turbo,尤其在Rust和Haskell上优势明显。它还结合了思维链(Chain-of-Thought)和思维树(Tree-of-Thought)搜索,专门对付多文件重构这种复杂场景。
但比技术细节更震撼的是战略信号。
从2026年8月起,所有GitHub Copilot订阅者将自动切换到Polaris。微软给了3个月回退期(到11月),之后GPT-4 Turbo将彻底退出Copilot默认选项。当然,开发者仍然可以手动选择GPT-5.5、Claude Sonnet 4.6或Gemini 3.5 Flash,但默认选项的改变本身就是风向标。
为什么要自己做?两个原因。
第一是成本。之前写过一篇文章分析过,微软和Uber都在为失控的AI Token账单头疼。Copilot有数百万订阅者,每月产生数百亿Token的推理消耗,每一笔都要向OpenAI付费。用自己的模型,这笔支出直接归零。
第二是控制权。自研模型意味着微软完全掌握更新节奏、定价权和合规性,不再受制于合作伙伴的产品路线图。此前我们已经看到微软取消了Claude Code的企业授权(月成本50万美元)——现在轮到自研替代品上线了。
同场发布的还有Copilot Workspace正式版——一个AI驱动的项目规划环境,支持任务分解、文件级编辑计划和多Agent PR工作流。Polaris也会成为这个环境的默认推理引擎。
如果说昨天那篇分析里我们还在讨论”Agent基础设施化”,今天Polaris的出现让这个故事又往前推了一步:微软不只是在建设Agent的运行环境(Windows Agent Framework),它还在建设Agent的大脑——而且这个大脑是自己的。
阿里Qwen3.7-Plus:GUI和CLI通吃的”全能Agent”
Qwen3.7-Plus是Qwen3.7系列的多模态版本,和纯文本旗舰Qwen3.7-Max是互补关系。它的核心卖点很简单:一个模型同时搞定图形界面操作和命令行操作,不需要在不同模型之间切换。
这在2026年的Agent赛道里相当少见。目前Claude Computer Use和OpenAI Operator都专注GUI自动化(浏览器/桌面操作),代码执行通常需要另一个模型配合。Qwen3.7-Plus把两者合二为一。
技术参数:基于Qwen3.7-Max的backbone扩展视觉模块,保留了1M token上下文窗口。ScreenSpot Pro成绩79.0——这个基准测试衡量模型识别UI截图中可交互元素的能力,75分以上就算前沿水平,79分意味着它能可靠操作Salesforce、HubSpot、AWS控制台、GitHub Web UI等标准SaaS界面。
Terminal-Bench 2.0成绩70.3,略高于Qwen3.7-Max(69.7),低于Claude Opus 4.8(74.6),但在终端Agent编码能力上也够用。
实测案例里,有人用Qwen3.7-Plus在11小时内无人干预地完成了整个APP开发——从UI设计截图到前端代码生成到终端调试,全程单一模型完成。虽然厂商自报数据需要打折看待,但”GUI截图→代码→终端调试”的全链路打通确实是差异化竞争力。
目前Qwen3.7-Plus只提供API访问(阿里云百炼、OpenRouter等),没有开源权重。阿里的惯例是旗舰API先上,数周或数月后再出开源版。如果后续开源,对国内开发者的吸引力会更大——毕竟Claude Computer Use和OpenAI Operator都有数据驻留限制。
价格方面,阿里的定位是”高性价比多模态”,低于Qwen3.7-Max(输入2.5美元/百万token),也低于Gemini 3.1 Pro(输入2美元/百万token)。具体定价发布后24-48小时公布。
Alphabet的800亿:钱不是问题,问题是花在谁身上
Alphabet同日确认的融资方案拆开来看:
- 伯克希尔·哈撒韦私募配售:100亿美元(巴菲特亲自投的)
- 公开发行(承销):300亿美元
- ATM发行(第三季度启动):400亿美元
用途很明确——AI基础设施。Alphabet预计2026年资本支出将达到1800到1900亿美元,2027年还会更高。支撑这个数字的是Google Cloud第一季度同比增长63%的收入,以及超过4600亿美元的云业务积压订单。
这里有个容易被忽略的细节:巴菲特在2025年Q3才开始建仓Alphabet,这次直接掏100亿做私募配售。一个以”不碰科技股”著称的投资人,在苹果之后再次重仓AI基础设施——这不是随便投着玩,这是对AI长期需求下了注的信心投票。
结合之前分析过的AI行业7250亿美元算力支出,Alphabet的800亿只是其中一块拼图。微软计划投入600亿扩建数据中心,亚马逊AWS承诺到2030年累计投入1500亿,Meta计划2027年前将AI算力翻4倍。整个行业正在把赌注押在同一件事上:AI计算需求会持续爆发式增长。
三件事背后的同一逻辑
表面上看,Polaris是微软的编程模型策略、Qwen3.7-Plus是阿里的Agent技术突破、Alphabet融资是财务操作。但它们的底层逻辑一致:
没人愿意在核心能力上依赖别人。
微软不想每次Copilot推理都向OpenAI付钱。阿里不想在Agent赛道上只有美国公司的选项。Alphabet不想因为算力不足而把云市场份额让给Azure和AWS。
这不是某个公司的个别选择,而是行业级别的趋势转变。2025年大家还在讨论”选哪个模型API更划算”,2026年的问题变成了”什么时候能有自己训练的模型”。
对于开发者来说,这个趋势意味着几件实际的事:
第一,模型选择会更多样。 Polaris上线后,GitHub Copilot里已经可以选Polaris、GPT-5.5、Claude Sonnet 4.6、Gemini 3.5 Flash——未来可能还会有更多选项。别忘了Kimi K2.6目前仍然在开源权重排行榜上排第一,DeepSeek V4也在用华为昇腾打造国产算力底座。
第二,Agent能力会成为标配。 Qwen3.7-Plus的”GUI+CLI通吃”模式很可能被其他厂商跟进。未来一个”合格”的编程模型,不仅要能写代码,还要能操作浏览器、读取界面、执行命令——当然,这也会带来新的安全隐患。
第三,成本不会永远降下去。 大厂都在自研模型,短期看是内卷降价,但自研模型的训练成本是天文数字。Alphabet豪掷800亿、NVIDIA Nemotron 3 Ultra(550B参数、6月4日发布)也在大举投入开源——这些钱最终要从某个地方收回来。免费API的时代可能比想象中短。
信息来源:Microsoft Build 2026官方发布/aitoolsrecap.com 6月2日报道/VentureBeat 6月3日Qwen3.7-Plus报道/buildfastwithai.com评测/CNBC/SEC Filing/百度百科Qwen3.7-Plus词条




发表回复