DeepSeek V4 把早期访问权给了华为,没给英伟达

昨天,科技媒体 The Information 报道了一件看似低调、实则很有份量的事:DeepSeek 下一代旗舰模型 V4,在发布前的早期适配阶段,把访问权限独家给了华为和寒武纪,而不是按惯例先跑英伟达。

这个细节放在过去,可能只是个不起眼的技术注脚。放在 2026 年的背景下,意味着完全不同的东西。


先弄清楚一件事:训练和推理,是两回事

很多人看到”DeepSeek V4 跑在华为芯片上”,第一反应是”国产算力超越英伟达了”——这个理解需要打个折扣。

大模型的生命周期分两个阶段:

  • 训练:让模型从海量数据中学会”推理”,需要数以千计的 GPU 长期并行计算,对算力、互联带宽、软件生态要求极高。DeepSeek V4 的训练,目前仍依赖英伟达平台。
  • 推理:模型训练好之后,对外提供服务的阶段——你发一条消息,它给你回复,这叫推理。对成本和延迟更敏感,硬件门槛相对较低。

DeepSeek V4 这次的突破,是在推理端实现了对华为昇腾芯片的全面适配。这一步,其实比外界想象的更难。


为什么推理端的国产化也不容易

不是说买了华为芯片、把模型文件复制进去就能跑。大模型依赖的底层算子库(类似英伟达的 CUDA/cuDNN),华为有自己的 CANN,但过去几年里,开发者抱怨最多的就是软件生态不成熟——工具链残缺、报错难排查、性能调优几乎靠猜。

根据 The Information 的报道,DeepSeek 这次为了让 V4 稳定跑在华为平台上,和华为、寒武纪的工程师合作了数个月,重写了部分底层模块,还用 TileLang 替代了部分依赖英伟达生态的算子实现。

结果是:推迟了发布时间,但换来了真正意义上可用的国产推理方案。


昇腾 950PR,到底是什么水平

华为在 2026 年 3 月发布了搭载昇腾 950PR 的 Atlas 350 加速卡,主要参数:

指标Atlas 350(昇腾 950PR)
FP8 算力1 PFLOPS
FP4 算力1.56 PFLOPS(卡级)
HBM 容量112 GB
内存带宽1.4 TB/s
功耗600 W
与 H20 对比FP4 算力约 2.87 倍,功耗约 1.5 倍

推理场景下,支持 FP4 低精度是个实用优势:同样的显存,可以跑更大的模型。一个 700 亿参数的模型,FP16 精度大约需要 140 GB 显存,而 FP4 可以把需求压到 35 GB 左右,单卡就能搞定。

当然,600W 的功耗不低——H20 大约在 400W。高算力是真的,高能耗也是真的。


DeepSeek 为什么要这么做

这不全是被逼的,但出口管制确实是背景。

2025 年美国扩大了对华芯片出口限制,H20 也在限制范围内。中国 AI 公司要买英伟达的高端算力,正规渠道越来越窄。在这个背景下,DeepSeek 选择提前把 V4 的早期适配权给国产芯片厂商,既是主动降低对英伟达依赖的风险管理,也是在抢占国产 AI 软件生态的制高点。

有一个细节值得注意:DeepSeek 打破了大模型发布的”行业惯例”——过去,模型公司在正式发布前,会把早期访问权优先给英伟达,让他们提前优化驱动和软件栈。这次,DeepSeek 把这个机会留给了华为和寒武纪。

这对华为来说意义不小——能提前适配当前最受关注的开源大模型,直接证明自家芯片”能用、好用”,比任何市场宣传都有说服力。


对开发者意味着什么

目前在国内使用大模型 API 的开发者,大多不直接关心底层跑的是什么芯片——那是云服务商的事。但这个趋势的演化,会逐渐影响到你:

云端推理成本:如果国产芯片推理方案稳定落地,国内云厂商采购成本下降,长期来看大模型 API 的价格可能进一步走低。

私有化部署选择:如果你在企业内部自建推理服务,未来的硬件选型会多出来一个”华为路线”。对于对数据安全有要求、又担心英伟达供货问题的企业来说,这不是坏事。

软件工具链的成熟度:这是最关键的门槛。CUDA 的优势不是算力,而是 20 年积累下来的软件生态——框架支持、工具链、调试工具、性能分析器。国产芯片这个方向上,今天的进展比三年前好太多,但要说”完全替代”,时机还没到。

至于本地跑大模型的开发者,昇腾这条路目前基本不在考虑范围内——消费级昇腾产品线还不成熟,Ollama 这类工具对昇腾的支持也处于早期阶段(如果你想了解本地跑模型的现状,可以看看 Ollama 0.19 发布之后 Mac 跑模型有多快,以及 本地部署大模型完全指南(2026版))。


DeepSeek V4 本身有什么值得期待的

顺带说一下 V4 本身。根据目前流出的信息(尚未正式发布,以下为预发布阶段披露内容):

  • 参数规模:万亿级别(1T 量级)
  • 上下文窗口:100 万 token,通过外部记忆系统实现
  • 架构代号:sealion,轻量版本(sealion-lite)已在开发者社区内测
  • 多模态:原生支持,不再像 V3 那样需要额外的多模态版本
  • 预计发布:2026 年 4 月底

当然,这些都还是”预计”,正式发布前变数很多。


总结

这不是”国产芯片打败英伟达”的故事——至少现在还不是。但它是”国产芯片开始能被顶级大模型认真对待”的开始,这个区别很重要。

从训练端的依赖,到推理端的初步突围,中间隔着软件、生态、工具链、工程师积累。DeepSeek 这次选择让 V4 优先适配华为昇腾,更像是在主动推这扇门,而不只是被推着走。

门能不能彻底打开,要等 V4 正式上线之后,看实际表现说话。

推荐文章

  • DeepSeek V4 把早期访问权给了华为,没给英伟达

    昨天,科技媒体 The Information 报道了一件看似低调、实则很有份量的事:DeepSeek 下一代旗舰模型 V4,在发布前的早期适配阶段,把访问权限独家给了华为和寒武纪,而不是按惯例先跑英…

  • Gemma 4 正式发布:谷歌终于把开源许可证改了,顺带还带来了一批真正能用的模型

    谷歌在 4 月 3 日凌晨悄悄推了一个大更新——Gemma 4,新一代开源模型家族全员到齐。这次更新有两件事值得单独拿出来说:一是许可证改了,二是性能数据开始有点意思了。 许可证这件事,比模型本身更重…

  • 豆包日均120万亿Token:字节AI的全线爆发,以及那个刚开放的视频模型

    4月2日,火山引擎总裁谭待在武汉的一场活动上抛出了一个数字:120万亿。 这是豆包大模型截至2026年3月的日均Token调用量。中国第一,全球前三。两年前,2024年5月豆包刚发布的时候,这个数字是…

  • Claude Code 源码泄露风波:51万行代码、三大隐私机制曝光,这已经是第二次了

    2026年3月31日,Anthropic碰上了一个不大不小的尴尬。 它们的AI编程工具Claude Code在发布npm包时,不小心把一个57MB的cli.js.map源映射文件打进了发布包里。这个看…

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

暗夜独行