暗夜独行

DeepSeek V4核心架构曝光：万亿参数、百万上下文，这次还有华为

技术

26年4月13日

12 分

2

4月上旬，AI圈被两条消息刷屏：Anthropic扔出了Claude Mythos这张王炸，Google开源了Gemma 4。但真正让我认真看完全部技术细节的，是DeepSeek V4架构论文的意外流出。

不是发布会，没有预告。DeepSeek直接把技术底牌亮了出来——万亿参数、百万上下文、原生多模态，外加一个过去没人敢提的关键词：华为昇腾深度适配。

先说最重要的：华为昇腾

这次V4最值得关注的，不是参数规模，而是那句话——「首次深度适配华为昇腾」。

过去国产大模型的训练推理，默认跑在英伟达生态里。H100、H200是行业标准，CUDA是绕不开的护城河。但美国出口管制把这条路越走越窄，H100拿不到、H200卡脖子，眼看着算力要被卡死。

DeepSeek V4和昇腾910C/910B的深度适配，意味着从硬件层到软件栈，全部换成国产。这不是「能用」，是「专门优化」——DeepSeek团队专门花了力气，把MoE架构的通信模式、专家路由的硬件亲和性，针对昇腾的互联带宽做了对齐。

简单说：DeepSeek V4不只是在华为芯片上跑通了，而是为昇腾量身打造的。

这件事的意义不只是技术层面的。它意味着中国AI基础设施的「去英伟达化」从口号变成了工程现实。整个AI训练的成本结构，都会因此重新计算。

万亿参数怎么做到的

V4的总参数量约1万亿，但别被这个数字吓到。

V4用的是MoE（混合专家）架构——1万亿参数是「总容量」，实际推理时只激活其中一小部分。根据论文数据，V4训练了128个专家，每次推理平均只激活8到12个，实际计算量相当于85B级别的Dense模型。

这背后的关键升级叫MoE-Routing v2。

V3的路由算法已经能按任务类型动态选择专家，V4进一步细化：简单问答只激活5%的参数，复杂推理任务激活35%。按需调用，按任务分配算力。DeepSeek给的数据是：推理成本比V3降低40%。

另一个硬核突破是动态稀疏注意力（DSA）。

传统Transformer的注意力计算复杂度是O(n²)，上下文越长，计算量平方级膨胀。Claude和GPT跑100K上下文时，推理速度已经很慢。V4的DSA通过动态选择关键Token参与注意力计算，把复杂度降到O(n log n)。

论文数据很直观：- 128K上下文推理速度提升8.3倍- 显存占用降低67%- 长文本理解准确率提升12%

这意味着，在消费级显卡上跑100K以上上下文的长文本分析，不再是「勉强能跑」，而是「跑得流畅」。

百万上下文到底什么概念

100万Token。上一个达到这个数字的，是Anthropic在Claude 4系列里吹的牛——实际落地情况大家都懂。

DeepSeek V4这次直接写进了架构设计里，DSA+Engram长期记忆的组合，目标就是让百万上下文不只是「能塞进去」，而是「真能用」。

一个比较直观的场景：你可以把一整个GitHub仓库扔进去做代码库级别的分析，或者把一年的产品数据文档全部加载进来，让AI做跨文档的关联推理。这在过去需要RAG（检索增强生成）来解决的问题，现在变成了一步到位的上下文推理。

配合本地部署工具，比如用Ollama把模型跑在你自己机器上，整个过程不需要数据上云。数据留在本地，上下文分析跑在本地，这套组合对于企业级应用来说，吸引力非常大。

原生多模态：不是拼上去的

很多大模型的「多模态」是外挂方案——文本模型加一个视觉编码器，包装成「多模态」。实际效果是有割裂感的。

V4的多模态是原生的。视觉编码和语言模型从一开始就是联合训练，不是「两个模块焊在一起」。这让跨模态的理解更顺畅——你问一个关于图表的问题，模型能真正「看懂」图表的结构，而不是靠OCR识别文字再套一层理解。

目前公开渠道能看到的V4版本还是V3.2，API入口也还没有V4的独立入口。按照DeepSeek创始人梁文锋的说法，V4正式版将在4月下旬发布。论文先发、代码后放——这是DeepSeek一贯的风格。

价格会继续往下打

V3当时把API价格打到「离谱」的程度——每百万Token不到一块钱，Claude和GPT看了都沉默。V4的架构升级（更低的推理成本、更高的显存效率）理论上会进一步压缩成本。

DeepSeek V4发布后，API定价大概率会继续刷新行业地板价。对于开发者和独立应用来说，这可能是今年最值得期待的事之一。

对开发者的实际影响

如果你现在在用AI做产品，V4有几个点值得重点关注：

本地部署的窗口变宽了。DSA+MoE的组合让量化后的模型在消费级显卡上的表现大幅提升。V4之后，拿一块RTX 4090跑100K上下文做代码分析，会从「实验性尝试」变成「可用的生产方案」。关于本地部署大模型的更多实操经验，可以参考这篇本地部署大模型完全指南（2026版）。

昇腾适配带来的新机会。如果你的业务需要部署在国产算力平台上，V4是第一个真正为昇腾生态设计的大模型。这不只是技术选型问题，也涉及合规和成本考量——对于政企客户来说，这一点非常关键。

API成本持续下降。这是好事，但也要注意：价格战会加速淘汰没有差异化能力的中间层。真正有壁垒的，是基于大模型做上层应用和垂直优化的人，而不是单纯卖API的服务商。

小结

DeepSeek V4的架构论文流出，是今年AI圈最有技术含量的一次「预热」。

不是营销驱动的发布，是工程师写的论文。每一个数字都指向同一个方向：更低的成本、更长的上下文、更高的效率，同时彻底绑上国产算力这条船。

4月下旬正式发布之后，AI开发者和企业的工具箱又会多一个选项。区别在于，这次这个选项从底层硬件到上层模型，全部是国产的。

这不只是DeepSeek的进展，是中国AI基础设施走向自主可控的一个缩影。

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我进行处理。

AI DeepSeek 华为国产AI 大模型大模型部署开发者昇腾

暗夜独行

京ICP备17021205号

站点地图

隐私政策

暗夜独行

DeepSeek V4核心架构曝光：万亿参数、百万上下文，这次还有华为

先说最重要的：华为昇腾

万亿参数怎么做到的

百万上下文到底什么概念

原生多模态：不是拼上去的

价格会继续往下打

对开发者的实际影响

小结

推荐文章

DeepSeek V4核心架构曝光：万亿参数、百万上下文，这次还有华为

Claude Mythos 来了，但你用不了——Anthropic 把最强模型锁进了保险柜

扣子 2.5 来了：你的 AI 现在有了自己的电脑、手机，还进了一个平行世界

国产模型编程能力首超 OpenAI，Qwen3.6-Plus 到底有多能打？

发表回复取消回复

暗夜独行

暗夜独行

DeepSeek V4核心架构曝光：万亿参数、百万上下文，这次还有华为

先说最重要的：华为昇腾

万亿参数怎么做到的

百万上下文到底什么概念

原生多模态：不是拼上去的

价格会继续往下打

对开发者的实际影响

小结

推荐文章

DeepSeek V4核心架构曝光：万亿参数、百万上下文，这次还有华为

Claude Mythos 来了，但你用不了——Anthropic 把最强模型锁进了保险柜

扣子 2.5 来了：你的 AI 现在有了自己的电脑、手机，还进了一个平行世界

国产模型编程能力首超 OpenAI，Qwen3.6-Plus 到底有多能打？

发表回复 取消回复

暗夜独行

发表回复取消回复