暗夜独行

DeepSeek V4 把早期访问权给了华为，没给英伟达

技术

26年4月5日

11 分

1

昨天，科技媒体 The Information 报道了一件看似低调、实则很有份量的事：DeepSeek 下一代旗舰模型 V4，在发布前的早期适配阶段，把访问权限独家给了华为和寒武纪，而不是按惯例先跑英伟达。

这个细节放在过去，可能只是个不起眼的技术注脚。放在 2026 年的背景下，意味着完全不同的东西。

先弄清楚一件事：训练和推理，是两回事

很多人看到”DeepSeek V4 跑在华为芯片上”，第一反应是”国产算力超越英伟达了”——这个理解需要打个折扣。

大模型的生命周期分两个阶段：

训练：让模型从海量数据中学会”推理”，需要数以千计的 GPU 长期并行计算，对算力、互联带宽、软件生态要求极高。DeepSeek V4 的训练，目前仍依赖英伟达平台。
推理：模型训练好之后，对外提供服务的阶段——你发一条消息，它给你回复，这叫推理。对成本和延迟更敏感，硬件门槛相对较低。

DeepSeek V4 这次的突破，是在推理端实现了对华为昇腾芯片的全面适配。这一步，其实比外界想象的更难。

为什么推理端的国产化也不容易

不是说买了华为芯片、把模型文件复制进去就能跑。大模型依赖的底层算子库（类似英伟达的 CUDA/cuDNN），华为有自己的 CANN，但过去几年里，开发者抱怨最多的就是软件生态不成熟——工具链残缺、报错难排查、性能调优几乎靠猜。

根据 The Information 的报道，DeepSeek 这次为了让 V4 稳定跑在华为平台上，和华为、寒武纪的工程师合作了数个月，重写了部分底层模块，还用 TileLang 替代了部分依赖英伟达生态的算子实现。

结果是：推迟了发布时间，但换来了真正意义上可用的国产推理方案。

昇腾 950PR，到底是什么水平

华为在 2026 年 3 月发布了搭载昇腾 950PR 的 Atlas 350 加速卡，主要参数：

指标	Atlas 350（昇腾 950PR）
FP8 算力	1 PFLOPS
FP4 算力	1.56 PFLOPS（卡级）
HBM 容量	112 GB
内存带宽	1.4 TB/s
功耗	600 W
与 H20 对比	FP4 算力约 2.87 倍，功耗约 1.5 倍

在推理场景下，支持 FP4 低精度是个实用优势：同样的显存，可以跑更大的模型。一个 700 亿参数的模型，FP16 精度大约需要 140 GB 显存，而 FP4 可以把需求压到 35 GB 左右，单卡就能搞定。

当然，600W 的功耗不低——H20 大约在 400W。高算力是真的，高能耗也是真的。

DeepSeek 为什么要这么做

这不全是被逼的，但出口管制确实是背景。

2025 年美国扩大了对华芯片出口限制，H20 也在限制范围内。中国 AI 公司要买英伟达的高端算力，正规渠道越来越窄。在这个背景下，DeepSeek 选择提前把 V4 的早期适配权给国产芯片厂商，既是主动降低对英伟达依赖的风险管理，也是在抢占国产 AI 软件生态的制高点。

有一个细节值得注意：DeepSeek 打破了大模型发布的”行业惯例”——过去，模型公司在正式发布前，会把早期访问权优先给英伟达，让他们提前优化驱动和软件栈。这次，DeepSeek 把这个机会留给了华为和寒武纪。

这对华为来说意义不小——能提前适配当前最受关注的开源大模型，直接证明自家芯片”能用、好用”，比任何市场宣传都有说服力。

对开发者意味着什么

目前在国内使用大模型 API 的开发者，大多不直接关心底层跑的是什么芯片——那是云服务商的事。但这个趋势的演化，会逐渐影响到你：

云端推理成本：如果国产芯片推理方案稳定落地，国内云厂商采购成本下降，长期来看大模型 API 的价格可能进一步走低。

私有化部署选择：如果你在企业内部自建推理服务，未来的硬件选型会多出来一个”华为路线”。对于对数据安全有要求、又担心英伟达供货问题的企业来说，这不是坏事。

软件工具链的成熟度：这是最关键的门槛。CUDA 的优势不是算力，而是 20 年积累下来的软件生态——框架支持、工具链、调试工具、性能分析器。国产芯片这个方向上，今天的进展比三年前好太多，但要说”完全替代”，时机还没到。

至于本地跑大模型的开发者，昇腾这条路目前基本不在考虑范围内——消费级昇腾产品线还不成熟，Ollama 这类工具对昇腾的支持也处于早期阶段（如果你想了解本地跑模型的现状，可以看看 Ollama 0.19 发布之后 Mac 跑模型有多快，以及本地部署大模型完全指南（2026版））。

DeepSeek V4 本身有什么值得期待的

顺带说一下 V4 本身。根据目前流出的信息（尚未正式发布，以下为预发布阶段披露内容）：

参数规模：万亿级别（1T 量级）
上下文窗口：100 万 token，通过外部记忆系统实现
架构代号：sealion，轻量版本（sealion-lite）已在开发者社区内测
多模态：原生支持，不再像 V3 那样需要额外的多模态版本
预计发布：2026 年 4 月底

当然，这些都还是”预计”，正式发布前变数很多。

总结

这不是”国产芯片打败英伟达”的故事——至少现在还不是。但它是”国产芯片开始能被顶级大模型认真对待”的开始，这个区别很重要。

从训练端的依赖，到推理端的初步突围，中间隔着软件、生态、工具链、工程师积累。DeepSeek 这次选择让 V4 优先适配华为昇腾，更像是在主动推这扇门，而不只是被推着走。

门能不能彻底打开，要等 V4 正式上线之后，看实际表现说话。

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我进行处理。

AI AI大模型 DeepSeek 华为国产AI 大模型开发者

暗夜独行

京ICP备17021205号

站点地图

隐私政策

暗夜独行

DeepSeek V4 把早期访问权给了华为，没给英伟达

先弄清楚一件事：训练和推理，是两回事

为什么推理端的国产化也不容易

昇腾 950PR，到底是什么水平

DeepSeek 为什么要这么做

对开发者意味着什么

DeepSeek V4 本身有什么值得期待的

总结

推荐文章

DeepSeek V4 把早期访问权给了华为，没给英伟达

Gemma 4 正式发布：谷歌终于把开源许可证改了，顺带还带来了一批真正能用的模型

豆包日均120万亿Token：字节AI的全线爆发，以及那个刚开放的视频模型

Claude Code 源码泄露风波：51万行代码、三大隐私机制曝光，这已经是第二次了

发表回复取消回复

暗夜独行

暗夜独行

DeepSeek V4 把早期访问权给了华为，没给英伟达

先弄清楚一件事：训练和推理，是两回事

为什么推理端的国产化也不容易

昇腾 950PR，到底是什么水平

DeepSeek 为什么要这么做

对开发者意味着什么

DeepSeek V4 本身有什么值得期待的

总结

推荐文章

DeepSeek V4 把早期访问权给了华为，没给英伟达

Gemma 4 正式发布：谷歌终于把开源许可证改了，顺带还带来了一批真正能用的模型

豆包日均120万亿Token：字节AI的全线爆发，以及那个刚开放的视频模型

Claude Code 源码泄露风波：51万行代码、三大隐私机制曝光，这已经是第二次了

发表回复 取消回复

暗夜独行

发表回复取消回复