4月上旬,AI圈被两条消息刷屏:Anthropic扔出了Claude Mythos这张王炸,Google开源了Gemma 4。但真正让我认真看完全部技术细节的,是DeepSeek V4架构论文的意外流出。
不是发布会,没有预告。DeepSeek直接把技术底牌亮了出来——万亿参数、百万上下文、原生多模态,外加一个过去没人敢提的关键词:华为昇腾深度适配。
先说最重要的:华为昇腾
这次V4最值得关注的,不是参数规模,而是那句话——「首次深度适配华为昇腾」。
过去国产大模型的训练推理,默认跑在英伟达生态里。H100、H200是行业标准,CUDA是绕不开的护城河。但美国出口管制把这条路越走越窄,H100拿不到、H200卡脖子,眼看着算力要被卡死。
DeepSeek V4和昇腾910C/910B的深度适配,意味着从硬件层到软件栈,全部换成国产。这不是「能用」,是「专门优化」——DeepSeek团队专门花了力气,把MoE架构的通信模式、专家路由的硬件亲和性,针对昇腾的互联带宽做了对齐。
简单说:DeepSeek V4不只是在华为芯片上跑通了,而是为昇腾量身打造的。
这件事的意义不只是技术层面的。它意味着中国AI基础设施的「去英伟达化」从口号变成了工程现实。整个AI训练的成本结构,都会因此重新计算。
万亿参数怎么做到的
V4的总参数量约1万亿,但别被这个数字吓到。
V4用的是MoE(混合专家)架构——1万亿参数是「总容量」,实际推理时只激活其中一小部分。根据论文数据,V4训练了128个专家,每次推理平均只激活8到12个,实际计算量相当于85B级别的Dense模型。
这背后的关键升级叫MoE-Routing v2。
V3的路由算法已经能按任务类型动态选择专家,V4进一步细化:简单问答只激活5%的参数,复杂推理任务激活35%。按需调用,按任务分配算力。DeepSeek给的数据是:推理成本比V3降低40%。
另一个硬核突破是动态稀疏注意力(DSA)。
传统Transformer的注意力计算复杂度是O(n²),上下文越长,计算量平方级膨胀。Claude和GPT跑100K上下文时,推理速度已经很慢。V4的DSA通过动态选择关键Token参与注意力计算,把复杂度降到O(n log n)。
论文数据很直观:- 128K上下文推理速度提升8.3倍- 显存占用降低67%- 长文本理解准确率提升12%
这意味着,在消费级显卡上跑100K以上上下文的长文本分析,不再是「勉强能跑」,而是「跑得流畅」。
百万上下文到底什么概念
100万Token。上一个达到这个数字的,是Anthropic在Claude 4系列里吹的牛——实际落地情况大家都懂。
DeepSeek V4这次直接写进了架构设计里,DSA+Engram长期记忆的组合,目标就是让百万上下文不只是「能塞进去」,而是「真能用」。
一个比较直观的场景:你可以把一整个GitHub仓库扔进去做代码库级别的分析,或者把一年的产品数据文档全部加载进来,让AI做跨文档的关联推理。这在过去需要RAG(检索增强生成)来解决的问题,现在变成了一步到位的上下文推理。
配合本地部署工具,比如用Ollama把模型跑在你自己机器上,整个过程不需要数据上云。数据留在本地,上下文分析跑在本地,这套组合对于企业级应用来说,吸引力非常大。
原生多模态:不是拼上去的
很多大模型的「多模态」是外挂方案——文本模型加一个视觉编码器,包装成「多模态」。实际效果是有割裂感的。
V4的多模态是原生的。视觉编码和语言模型从一开始就是联合训练,不是「两个模块焊在一起」。这让跨模态的理解更顺畅——你问一个关于图表的问题,模型能真正「看懂」图表的结构,而不是靠OCR识别文字再套一层理解。
目前公开渠道能看到的V4版本还是V3.2,API入口也还没有V4的独立入口。按照DeepSeek创始人梁文锋的说法,V4正式版将在4月下旬发布。论文先发、代码后放——这是DeepSeek一贯的风格。
价格会继续往下打
V3当时把API价格打到「离谱」的程度——每百万Token不到一块钱,Claude和GPT看了都沉默。V4的架构升级(更低的推理成本、更高的显存效率)理论上会进一步压缩成本。
DeepSeek V4发布后,API定价大概率会继续刷新行业地板价。对于开发者和独立应用来说,这可能是今年最值得期待的事之一。
对开发者的实际影响
如果你现在在用AI做产品,V4有几个点值得重点关注:
本地部署的窗口变宽了。DSA+MoE的组合让量化后的模型在消费级显卡上的表现大幅提升。V4之后,拿一块RTX 4090跑100K上下文做代码分析,会从「实验性尝试」变成「可用的生产方案」。关于本地部署大模型的更多实操经验,可以参考这篇本地部署大模型完全指南(2026版)。
昇腾适配带来的新机会。如果你的业务需要部署在国产算力平台上,V4是第一个真正为昇腾生态设计的大模型。这不只是技术选型问题,也涉及合规和成本考量——对于政企客户来说,这一点非常关键。
API成本持续下降。这是好事,但也要注意:价格战会加速淘汰没有差异化能力的中间层。真正有壁垒的,是基于大模型做上层应用和垂直优化的人,而不是单纯卖API的服务商。
小结
DeepSeek V4的架构论文流出,是今年AI圈最有技术含量的一次「预热」。
不是营销驱动的发布,是工程师写的论文。每一个数字都指向同一个方向:更低的成本、更长的上下文、更高的效率,同时彻底绑上国产算力这条船。
4月下旬正式发布之后,AI开发者和企业的工具箱又会多一个选项。区别在于,这次这个选项从底层硬件到上层模型,全部是国产的。
这不只是DeepSeek的进展,是中国AI基础设施走向自主可控的一个缩影。




发表回复