昨天,科技媒体 The Information 报道了一件看似低调、实则很有份量的事:DeepSeek 下一代旗舰模型 V4,在发布前的早期适配阶段,把访问权限独家给了华为和寒武纪,而不是按惯例先跑英伟达。
这个细节放在过去,可能只是个不起眼的技术注脚。放在 2026 年的背景下,意味着完全不同的东西。
先弄清楚一件事:训练和推理,是两回事
很多人看到”DeepSeek V4 跑在华为芯片上”,第一反应是”国产算力超越英伟达了”——这个理解需要打个折扣。
大模型的生命周期分两个阶段:
- 训练:让模型从海量数据中学会”推理”,需要数以千计的 GPU 长期并行计算,对算力、互联带宽、软件生态要求极高。DeepSeek V4 的训练,目前仍依赖英伟达平台。
- 推理:模型训练好之后,对外提供服务的阶段——你发一条消息,它给你回复,这叫推理。对成本和延迟更敏感,硬件门槛相对较低。
DeepSeek V4 这次的突破,是在推理端实现了对华为昇腾芯片的全面适配。这一步,其实比外界想象的更难。
为什么推理端的国产化也不容易
不是说买了华为芯片、把模型文件复制进去就能跑。大模型依赖的底层算子库(类似英伟达的 CUDA/cuDNN),华为有自己的 CANN,但过去几年里,开发者抱怨最多的就是软件生态不成熟——工具链残缺、报错难排查、性能调优几乎靠猜。
根据 The Information 的报道,DeepSeek 这次为了让 V4 稳定跑在华为平台上,和华为、寒武纪的工程师合作了数个月,重写了部分底层模块,还用 TileLang 替代了部分依赖英伟达生态的算子实现。
结果是:推迟了发布时间,但换来了真正意义上可用的国产推理方案。
昇腾 950PR,到底是什么水平
华为在 2026 年 3 月发布了搭载昇腾 950PR 的 Atlas 350 加速卡,主要参数:
| 指标 | Atlas 350(昇腾 950PR) |
|---|---|
| FP8 算力 | 1 PFLOPS |
| FP4 算力 | 1.56 PFLOPS(卡级) |
| HBM 容量 | 112 GB |
| 内存带宽 | 1.4 TB/s |
| 功耗 | 600 W |
| 与 H20 对比 | FP4 算力约 2.87 倍,功耗约 1.5 倍 |
在推理场景下,支持 FP4 低精度是个实用优势:同样的显存,可以跑更大的模型。一个 700 亿参数的模型,FP16 精度大约需要 140 GB 显存,而 FP4 可以把需求压到 35 GB 左右,单卡就能搞定。
当然,600W 的功耗不低——H20 大约在 400W。高算力是真的,高能耗也是真的。
DeepSeek 为什么要这么做
这不全是被逼的,但出口管制确实是背景。
2025 年美国扩大了对华芯片出口限制,H20 也在限制范围内。中国 AI 公司要买英伟达的高端算力,正规渠道越来越窄。在这个背景下,DeepSeek 选择提前把 V4 的早期适配权给国产芯片厂商,既是主动降低对英伟达依赖的风险管理,也是在抢占国产 AI 软件生态的制高点。
有一个细节值得注意:DeepSeek 打破了大模型发布的”行业惯例”——过去,模型公司在正式发布前,会把早期访问权优先给英伟达,让他们提前优化驱动和软件栈。这次,DeepSeek 把这个机会留给了华为和寒武纪。
这对华为来说意义不小——能提前适配当前最受关注的开源大模型,直接证明自家芯片”能用、好用”,比任何市场宣传都有说服力。
对开发者意味着什么
目前在国内使用大模型 API 的开发者,大多不直接关心底层跑的是什么芯片——那是云服务商的事。但这个趋势的演化,会逐渐影响到你:
云端推理成本:如果国产芯片推理方案稳定落地,国内云厂商采购成本下降,长期来看大模型 API 的价格可能进一步走低。
私有化部署选择:如果你在企业内部自建推理服务,未来的硬件选型会多出来一个”华为路线”。对于对数据安全有要求、又担心英伟达供货问题的企业来说,这不是坏事。
软件工具链的成熟度:这是最关键的门槛。CUDA 的优势不是算力,而是 20 年积累下来的软件生态——框架支持、工具链、调试工具、性能分析器。国产芯片这个方向上,今天的进展比三年前好太多,但要说”完全替代”,时机还没到。
至于本地跑大模型的开发者,昇腾这条路目前基本不在考虑范围内——消费级昇腾产品线还不成熟,Ollama 这类工具对昇腾的支持也处于早期阶段(如果你想了解本地跑模型的现状,可以看看 Ollama 0.19 发布之后 Mac 跑模型有多快,以及 本地部署大模型完全指南(2026版))。
DeepSeek V4 本身有什么值得期待的
顺带说一下 V4 本身。根据目前流出的信息(尚未正式发布,以下为预发布阶段披露内容):
- 参数规模:万亿级别(1T 量级)
- 上下文窗口:100 万 token,通过外部记忆系统实现
- 架构代号:sealion,轻量版本(sealion-lite)已在开发者社区内测
- 多模态:原生支持,不再像 V3 那样需要额外的多模态版本
- 预计发布:2026 年 4 月底
当然,这些都还是”预计”,正式发布前变数很多。
总结
这不是”国产芯片打败英伟达”的故事——至少现在还不是。但它是”国产芯片开始能被顶级大模型认真对待”的开始,这个区别很重要。
从训练端的依赖,到推理端的初步突围,中间隔着软件、生态、工具链、工程师积累。DeepSeek 这次选择让 V4 优先适配华为昇腾,更像是在主动推这扇门,而不只是被推着走。
门能不能彻底打开,要等 V4 正式上线之后,看实际表现说话。




发表回复