同日交手:DeepSeek V4 开源 vs GPT-5.5 发布,这次谁赢了?

2026年4月24日,AI圈的战鼓同时从两个方向敲响。

北京时间上午,DeepSeek 宣布 V4 正式发布并完全开源——1.6万亿参数,MIT 协议,直接放到 HuggingFace 上随便下。几乎在同一时刻,OpenAI 推出 GPT-5.5,这是自 GPT-4.5 以来首次从头重新训练的基础模型,API 输出价格同步翻倍到每百万 Token 30 美元。

两件事撞在同一天,不像巧合,更像是某种默契的对峙。


先说 DeepSeek V4 到底带来了什么

V4 这次一口气推了两个版本:

  • V4-Pro:1.6T 总参数,49B 激活参数,上下文窗口 100 万 Token,预训练语料超过 32T tokens
  • V4-Flash:284B 总参数,13B 激活参数,同样支持 1M 上下文

两个版本都是 MIT 协议全量开源,API 已经上线。

定价是真的狠:Flash 版输出 2 元/百万 Token,Pro 版输出 24 元/百万 Token。拿 Pro 版和 GPT-5.5 的标准版比,同样是旗舰推理模型,GPT-5.5 输出是 30 美元/百万 Token,换算下来大约是 V4-Pro 的 9 倍

技术层面,V4 做了三件有意思的事:

第一是重写了注意力机制。引入压缩序列注意力(CSA)和重度压缩注意力(HCA),让 1M 长上下文下的单 Token 推理算力降到了 V3.2 的 27%,KV Cache 占用直接打到了 10%。这不是简单的工程优化,而是对 Transformer 底层做的改动。

第二是 Muon 优化器。放弃了主流的 AdamW,改用基于矩阵正交化的动量更新机制。官方说在 32T tokens 的预训练规模下收敛更快,最终损失更低。这个优化器之前在小模型上有人测试过,但用在这个规模上还是头一次。

第三是流形约束超连接。解决的是大规模 MoE 训练时深层的梯度问题。每层 384 个专家,每次推理激活 6 个——这个设计本身不稀奇,稀奇的是他们在这么深的网络里还能保持稳定的专家激活分布。

有一个细节值得关注

V4 这次首发跑在了华为昇腾平台上,同时兼容英伟达 GPU。DeepSeek 官方文档里明确提到了华为 CANN 架构的适配,这是该公司模型在正式发布版本中首次将国产算力列为主要部署选项之一。

黄仁勋对此没有沉默。他此前在一个访谈里说过一句话,大意是:如果 DeepSeek 先在华为平台上发布,那对美国来说将是很坏的结果。现在这件事发生了。


GPT-5.5 在做什么

GPT-5.5 的定位转向很清晰——从”对话大模型”到 Agent 基座

OpenAI 把这次的发布形容为”工作中的新型智能”,优先级不再是把单轮对话答案做得更好,而是让模型能够自主规划、调用工具、检查结果、持续推进。这个方向调整从 GPT-5.4 发布时就有迹象,5.5 把它变成了明确的核心定位。

性能上,几个数字值得关注:

  • Terminal-Bench 2.0(测试终端自动化能力):82.7%,比 5.4 版高了 7.6 个百分点
  • GDPval(评估 44 种职业知识工作能力):84.9% 的任务达到或超过行业专家水平
  • OSWorld-Verified(电脑操作任务):78.7%

但有两个软肋也很明显。

SWE-Bench Pro(代码库级问题修复)上,GPT-5.5 只有 58.6%,Claude Opus 4.7 是 64.3%,差距不小。对于需要深度修改代码仓库的开发任务,5.5 并不是最好的选择。

更值得警惕的是幻觉率。在 AA-Omniscience 测试里,GPT-5.5 录得了 86% 的幻觉率,而 Claude Opus 4.7 是 36%。换句话说,GPT-5.5 在不知道答案的时候,有相当高的概率会”非常自信地编一个”。这对于 Agent 工作流来说是真实的风险——你委托给它处理一个多步骤任务,中间某个环节它估了一个数、猜了一个事实,后续全部跑偏,你可能到最后才发现。

定价方面,标准版 API 输出 30 美元/百万 Token,Pro 版升到了 180 美元/百万 Token,分别是上代 5.4 的三倍。ChatGPT Plus 用户的每周限额也降到了 200 条消息,部分用户体验感受有所下降。


两张答卷,读出什么信号

把两个模型放在一起看,分歧点比技术本身更有意思。

能力定位的分叉

GPT-5.5 明确是 Agent 基座,重点是”让 AI 自主执行任务”;DeepSeek V4 是综合能力模型,在代码、推理、长上下文全面布局,没有特别强调某一个场景。

两条路在 2026 年都有市场,但针对的用户群不同。

开源与闭源的账本

这道选择题现在比以前复杂。

V4-Pro 的 API 价格约是 GPT-5.5 标准版的 1/9,而且全量开源可以自己部署。对于用量大的企业或开发者,仅成本一项就是结构性优势。

但 GPT-5.5 在 Agent 任务上的某些能力,特别是终端自动化和多工具调用场景,目前仍有领先。闭源模型还有一个优势是整合度——Codex、ChatGPT、企业 API 是一套生态,换成 V4 需要重新接入和测试。

DeepSeek 自己说不如 GPT-5.4

这倒是少见的坦诚。V4 的技术报告里明确标注,对标的基准是 GPT-5.4 而非同日发布的 5.5。官方原话是当前能力滞后前沿闭源模型约 3 到 6 个月。

这个表述有点矛盾——一边是代码能力基准测试反超了一些闭源模型(LiveCodeBench 93.5%,Codeforces 竞技编程 Rating 3206),另一边是主动承认综合能力有差距。你可以理解为谦虚,也可以理解为在某些垂直方向上确实超了,但整体综合能力确实还有距离。


对开发者来说,这意味着什么

如果你在用 DeepSeek API

旧的 deepseek-chatdeepseek-reasoner 接口将于 2026 年 7 月 24 日停用,需要迁移到 deepseek-v4-flashdeepseek-v4-pro。早迁早安稳。

V4 现在还有一个对 Claude Code 用户特别友好的功能:原生兼容 Anthropic API 格式,只需设置两个环境变量就能切换:

Bash
export ANTHROPIC_BASE_URL=https://api.deepseek.com/anthropic
export ANTHROPIC_API_KEY=your_deepseek_api_key

这个设计不像是偶然,更像是在主动降低迁移成本。

不过目前 V4-Pro 版本因为国产算力供给原因,吞吐有限制,不太适合高并发生产环境。Flash 版本的并发更好,成本也极低,中低复杂度的任务用 Flash 是合理选择。

如果你在考虑上 GPT-5.5

Agent 工作流是真实受益点,特别是需要模型自主规划和调用多个工具的场景。1M Token 上下文窗口配合 Codex 环境,用来处理整个代码仓库级别的任务理论上可行。

但幻觉率的问题必须认真对待。如果你的工作流对准确性要求高——比如生成合规文件、处理有来源要求的报告——在正式切换之前一定要做自己场景下的回归测试,不能只看官方 benchmark。


结尾

“同一天”这件事本身就值得想一下。

DeepSeek 和 OpenAI 都没有解释为什么选在同一天发布。但把两件事放在一起,勾勒出的格局很清楚:一边是价格战打到了极致、选择彻底开放;另一边是继续走性能溢价路线,把 Agent 能力作为核心差异化卖点。

这不是某一家赢,另一家输的事。更像是整个 AI 产业在今天同时给出了两种答案:用极致性价比覆盖更广的应用场景,或者用极致能力定义新的任务边界。

两条路都需要有人走,而且都走得通。


如果你对 DeepSeek 的前期布局感兴趣,可以看看之前写的 DeepSeek V4 核心架构深度解读,里面有对技术路线的更多背景。想了解 Agent 时代的安全风险,可以参考 你的 AI 助手在背后干了什么?

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

推荐阅读

  • 同日交手:DeepSeek V4 开源 vs GPT-5.5 发布,这次谁赢了?

    2026年4月24日,AI圈的战鼓同时从两个方向敲响。 北京时间上午,DeepSeek 宣布 V4 正式发布并完全开源——1.6万亿参数,MIT 协议,直接放到 HuggingFace 上随便下。几乎…

  • 你公司75%的代码,已经不是人写的了

    四分之三。 这是谷歌现在的数字——公司内部新编写的代码,75%出自AI之手,人类工程师在后面做审核。 这个比例在 2024 年 10 月还是 25%,到去年秋天涨到了50%,不到两年,翻了三倍。 20…

  • ChatGPT Images 2.0 上线:会思考的图像 AI,终于把中文写对了

    2026 年 4 月 21 日深夜,OpenAI CEO 开了一场不到半小时的线上直播,发布了 ChatGPT Images 2.0。这个版本背后的模型叫 GPT-Image-2,不是 DALL-E …

  • Kimi K2.6 开源,能编 13 小时代码:国产 AI 的编程天花板真的破了?

    月之暗面在 4 月 20 日晚间低调推送了一件事:把 Kimi K2.6 开源了。 说”低调”,是因为没有发布会,没有倒计时直播,甚至连正式的新闻稿都是第二天才陆续出现。但这并…

暗夜独行