这件事发生在上周,低调得有些出乎意料。
4月5日到7日,国内四家公司密集发布了五款大模型。没什么盛大的发布会,也没有铺天盖地的通稿。但测评结果出来之后,事情就变了味道——在 HumanEval 这个编程能力基准测试上,国产模型第一次整体超过了 GPT-5。
这不是某家公司的自说自话,是第三方评测的数据。
其中进入第一梯队的,除了智谱的 GLM-5.1,还有一个更早一步的家伙——阿里通义千问的 Qwen3.6-Plus,3月31日悄悄在 OpenRouter 上线了预览版,4月2日正式发布。
如果你最近在用 AI 写代码,这篇文章应该花五分钟读一下。
先说它到底是什么
Qwen3.6-Plus 是通义千问系列在 MoE(混合专家)架构上的一次大升级。
MoE 是什么意思? 简单说,这类模型的内部有很多”专家”,每次处理任务时只激活其中一小部分,而不是把整个模型都调动起来。好处是:用更少的计算量,跑出接近更大模型的效果。
具体参数长这样:
- 总参数量: 720 亿(72B)
- 每次激活: 约 180 亿(相当于一个密集模型的规模)
- 上下文窗口: 100 万 Token(约合 75 万汉字,一部《三体》三部曲大概 100 多万字)
- 最大输出: 65,536 Token
- 推理方式: 思维链始终开启,不需要手动切换
这个上下文窗口是什么概念?你可以把整个代码仓库喂进去,让它帮你分析依赖关系、找潜在的 bug、重构某个模块——不用反复拆分、来回粘贴。
编程能力,到底强在哪
几个关键测评数据,没有水分的那种:
| 评测项目 | Qwen3.6-Plus | 对比参考 |
|---|---|---|
| Terminal-Bench 2.0(终端编程任务) | 61.6 | Claude Opus 4.5:59.3 |
| SWE-bench Verified(真实 GitHub issue 修复) | 78.8 | Claude Opus 4.5:80.9 |
| OmniDocBench v1.5(文档处理) | 91.2 | 全球第一 |
| RealWorldQA(真实世界问答) | 85.4 | 领先主流模型 |
在 Terminal-Bench 2.0 上,它超过了 Claude Opus 4.5。SWE-bench 上略低于 Claude,但考虑到 Qwen3.6-Plus 目前的价格(后面会说),这个差距基本可以忽略。
更有意思的是推理速度:社区实测下来,Qwen3.6-Plus 的响应速度大约是 Claude Opus 4.6 的 3 倍。如果你在用 AI 做大量代码审查,这个差距感受会很明显。
现在可以怎么免费用
这是本文最实用的部分。
Qwen3.6-Plus 目前在 OpenRouter 上有免费的预览版入口,不需要任何充值,只要注册账号就能用。
第一步:注册 OpenRouter
打开 https://openrouter.ai,用 Google 账号或邮箱注册。
第二步:创建 API Key
登录后进入 Settings → Keys(或访问 https://openrouter.ai/workspaces/default/keys),点击 Create New Key,给密钥起个名字,复制生成的 Key(格式是 sk-or-v1-xxxxxxxx)。
注意: Key 只显示一次,记得立刻保存到本地。
第三步:选择模型
在支持 OpenRouter 的客户端或 API 调用中,模型名填写:
qwen/qwen3.6-plus:free在 OpenClaw 里配置(推荐)
如果你已经在用 OpenClaw,配置起来非常简单:
- 打开 OpenClaw 设置
- Provider 选择 OpenRouter
- 粘贴你的 API Key
- 模型选 Qwen3.6-Plus (Free)
配置完成后重启就生效了,可以直接用在你的日常对话或者编程工作流里。
直接用 API 调用
如果你想直接用代码跑,OpenRouter 兼容 OpenAI 的 API 格式:
from openai import OpenAI
client = OpenAI(
base_url="https://openrouter.ai/api/v1",
api_key="sk-or-v1-你的KEY",
)
response = client.chat.completions.create(
model="qwen/qwen3.6-plus:free",
messages=[
{"role": "user", "content": "帮我分析这段代码里的性能瓶颈:..."}
]
)
print(response.choices[0].message.content)如果你之前跑过 Ollama 或者用过本地模型,这个格式你一定不陌生。调用方式和本地部署的 OpenAI 兼容接口完全一样,本地部署大模型完全指南里讲的那一套思路可以直接复用。
这个模型适合拿来干什么
根据它的架构和测评数据,Qwen3.6-Plus 有几个特别值得用的场景:
1. 仓库级代码分析
100 万 Token 的窗口,意味着你可以一次性把整个中型项目丢进去。让它帮你写 changelog、找某个函数的所有调用链、重构某个模块——这件事以前要么拆分来做,要么换更贵的 API。
2. 真实 GitHub issue 修复
SWE-bench 测的就是从 issue 描述到提交可运行修复代码的全流程。78.8 的成绩意味着它能处理大多数中等复杂度的真实 bug 修复任务。
3. 多模态前端开发
给它一张 Figma 截图,让它直接生成对应的 HTML/CSS/React 组件。原生多模态训练,处理界面图生代码这件事比很多专门调教的工具做得更自然。
4. 复杂文档处理
OmniDocBench 全球第一不是随便说的。技术文档提取、代码注释生成、API 文档总结,都是日常开发里的真实需求。
免费版有什么限制
得说清楚。
OpenRouter 上的 :free 后缀版本是预览期免费,不是永久免费。政策可能随时调整,高峰时段响应速度也会有浮动。
如果你需要稳定的生产环境调用,阿里云 DashScope 是官方付费入口,按 Token 计费,有完整的 SLA 保障。新用户注册有免费额度,可以先测试用量再决定要不要付费。
当前 OpenRouter 上付费版的定价,跟 Anthropic 和 OpenAI 同级别模型相比有相当大的价格优势——这也是”国产模型编程能力首超 OpenAI”这条新闻背后,很多开发者真正在意的部分。
一个值得关注的大背景
Qwen3.6-Plus 只是最近这波国产模型集中爆发的一个缩影。
同期发布的还有智谱 GLM-5.1(支持 1200 步长程任务,完全开源)和谷歌 Gemma 4(Apache 2.0 许可证,无商业限制)。与此同时,OpenAI 也已经官宣 GPT-6 将在4月14日发布,代号”Spud”,号称性能较上一代提升 40%、上下文窗口扩展到 200 万 Token。
有意思的是,在这波竞争里,”有多贵”已经不再是国产模型的软肋。更值得开发者关注的,反而是每个模型在哪个具体任务上真正跑得更好——而不是听谁的发布会说得更响亮。
这一点,和用 AI 工具之前搞清楚它的边界一样重要。你想知道 AI 助手在后台到底干了什么,就得把每个工具真正摸透,而不是只看发布会视频。
现在就能上手的几件事
如果你看完这篇文章想立刻动手,可以从最简单的路径开始:
- 注册 OpenRouter,拿免费的 API Key
- 把 Key 配进 OpenClaw 或者你已经在用的 AI 客户端
- 把一个你最近在搞的代码仓库压缩成文本,扔进 100 万 Token 的上下文里问它一个你已经卡了一段时间的问题
光是第三件事,就值得试一次。
关于如何在本地搭建 AI 开发环境,可以参考 本地部署大模型完全指南(2026版),里面覆盖了 Ollama、LM Studio 两套方案的详细操作步骤。




发表回复