莫高估英伟达，勿低估DeepSeek与国产算力崛起

2026-04-25 11:04:40未知作者:徽声在线

出品 | 徽声在线APP

作者 | 董必政（改写）

编辑 | 丁萍（优化）

头图 | AI智能制图

备受瞩目的DeepSeek-V4终于闪亮登场。

在4月24日这个特别的日子里，全新系列模型DeepSeek-V4的预览版本正式与大家见面，并且同步实现了开源。

DeepSeek-V4带来了革命性的创新，它开创了一种前所未有的注意力机制，在token维度进行巧妙压缩，结合DSA稀疏注意力（DeepSeek Sparse Attention）技术，成功实现了全球领先的长上下文能力。更为惊人的是，相较于传统方法，它大幅降低了对计算资源和显存的需求。

千万不要小看这一突破，DeepSeek-V4对计算和显存需求的显著降低，意义非凡。

徽声在线分析认为，这一变革将直接对英伟达GPU的优势地位构成挑战。值得一提的是，DeepSeek-V4还特别优先适配国产芯片厂商，展现出对国产芯片的大力支持。

换句话说，我们既不能高估英伟达所构建的护城河，也绝不能低估DeepSeek正在引领的这场架构革命。关键并非在于“谁替代谁”，而在于AI产业链的利润分配格局、部署路径选择以及投资逻辑，都可能正在发生深刻的变化。

一、在重重限制中突围前行

回顾过去两年，AI大模型的发展主要聚焦于训练环节，而算力则成为了竞争的核心要素。

从某种程度上讲，AI基础大模型之间的激烈竞争，本质上就是GPU算力基础设施的较量。谁能获取更多高端GPU，谁能构建出规模更大的集群，谁就更有机会打造出性能更强的基础模型。

然而，现实情况却不容乐观。美国通过出口管制手段，严禁英伟达H100/H200等顶级芯片对华销售。不仅如此，台积电的先进制程等关键领域也被美国牢牢卡住，这使得国产GPU卡与英伟达卡之间仍存在一定的差距。

一位GPU企业人士曾向徽声在线形象地形容：“国内GPU厂商都是在戴着‘镣铐’与英伟达同台竞技的。”

令人惊喜的是，即便处于如此逆风的不利局面，这两年中美大模型之间的差距却在逐步缩小，甚至有接近拉平的趋势。

在2023年底，中美的顶级模型在各大维度的差距还在20% - 30%之间徘徊。而到了4月14日，斯坦福大学HAI实验室发布的2026年度《AI指数报告》，这份长达423页的行业权威报告清晰地显示，中美大模型性能差距已大幅收窄至2.7%，基本实现了技术层面的追平。

徽声在线认为，若将中美AI大模型性能差距视为最终结果，那么英伟达GPU并非是起决定性作用的关键因素。

这一结果的取得，一方面要归功于国产芯片的崛起以及中国电力基础设施的完备。

黄仁勋在最近的访谈中也表示：“AI本质上是并行计算问题，中国完全可以通过堆叠更多芯片来弥补单颗芯片的制程差距。中国拥有丰富的能源资源，如果愿意，完全可以把更多芯片组合在一起，即便制程落后几个纳米也无妨。”

实际上，不少国内GPU厂商已经成功实现了万卡集群的构建，以此弥补单卡算力的不足。例如，摩尔的夸娥万卡集群、沐曦的曦源一号SADA万卡集群等。

另一方面，则要归功于以DeepSeek为代表的大模型企业的脱颖而出。

DeepSeek凭借软件上的前瞻性设计，主动去适配和赋能国产硬件，为国产芯片的发展铺平了道路。

比如，DeepSeek - V3成功验证了FP8在大规模模型训练中的可用性，在不增加额外开销的情况下，扩大了模型训练规模，同时还不影响模型训练质量。

打个形象的比喻，过去要完成一个复杂的AI计算任务，就如同需要几台巨大、精密且昂贵的德国进口机床（代表英伟达的高精度GPU）来完成。而现在，DeepSeek通过改变任务的加工流程（即改变数据格式），使得这个任务可以被几十台小巧、简单且便宜的国产机床（代表国产GPU的计算单元）组成的流水线高效完成。

即便如此，英伟达GPU在海外大模型训练方面仍然占据一定优势。

但从产业演进的长远角度来看，大模型训练仅仅只是第一阶段。大模型成功打造出来之后，真正决定其商业化速度和产业渗透深度的，是推理环节。尤其是以Openclaw、Hermes为代表的Agent爆火之后，推理的重要性愈发凸显。

二、英伟达在训练领域领先，但推理时代才刚刚开启

训练和推理是两种截然不同的模式，各自有着独特的特点和要求。

Claw类Agent的爆发，长上下文记忆能力成为了核心的导火索。

以前的AI就像只有鱼的记忆，只会聊天，转头就忘。而如今的Claw却能记住一切，持续高效地工作，并且越用越懂你，记忆让它从单纯的“玩具”转变为实用的“工具”。

当上下文越来越长、Agent记忆越来越深、工具调用越来越频繁时，GPU的显存就会被KV cache（记忆缓存）撑爆，进而导致大模型的推理质量下降。

因此，推理爆发所面临的第一个瓶颈，并非是算力不足，而是“记忆”和“计算”在争夺同一块显存资源。

对于国产GPU而言，算力（峰值TFLOPS）并非是最大的瓶颈，显存才是关键问题。而英伟达GPU在显存技术方面拥有领先其他厂商1 - 2年的代际优势。

英伟达的主流数据中心GPU（如A100、H100）的单卡显存容量通常标配为80GB，而最新一代Rubin GPU更是搭载了8颗36GB的HBM4内存颗粒，总容量高达288GB，显存总带宽提升到了13 TB/s。

国产芯片由于受到先进制程的限制，显存容量和带宽都相对较低，仍需努力突围。例如，昇腾910B的显存容量为64GB。

根据此前梁文锋发布的论文推测，这次DeepSeek - V4很可能采用了独特的Engram架构，而Engram架构恰好能够解决显存容量瓶颈这一难题。

DeepSeek - V4的具体做法是，将模型里那些“死记硬背”的静态知识抽取出来，存入一个巨大的内存表中。在推理时，CPU负责“查字典”（检索知识），GPU则负责“想逻辑”（计算推理）。

这两者是完全重叠执行的。当GPU在计算上一个词的逻辑时，CPU已经把下一个词所需的知识准备好了。由于延迟被这种并行架构彻底掩盖，AI单位时间内的产出效率得到了几何级数的提升，GPU显存也不再会被KV cache撑爆。

比如，一个原本需要80GB显存才能运行的长上下文推理任务，在Engram架构下，可能只需要8GB显存就能顺利运行。

这意味着在国产GPU显存受限的情况下，也能完成同样的任务，而英伟达引以为傲的HBM显存稀缺性正面临崩塌的危机。同时，CPU也将迎来新的发展机遇。

此外，更值得关注的是，DeepSeek - V4即将发布，此次它没有按照行业惯例给英伟达早期测试权限，而是把提前适配的机会全部留给了华为和寒武纪，目标是从CUDA生态整体迁移到华为CANN框架。

虽然英伟达的CUDA生态在短期内难以被取代，但已经出现了细微的裂缝。这也充分表明DeepSeek无论在开源生态还是国产自主方面，依然占据着强力的生态位。

据媒体报道，为应对基于该模型的云服务上线需求，阿里巴巴、字节跳动和腾讯等科技巨头已提前下单华为新一代AI芯片，订单规模高达数十万颗。

可以预见的是，这次即将发布的DeepSeek - V4，必将给AI投资带来新的预期和机遇。

三、新的投资预期与方向

从投资的角度深入分析，徽声在线认为DeepSeek - V4将直接利好两大方向：国产算力及AI应用。

1.国产算力

如果DeepSeek - V4确认是完全基于国产算力训练出来的，那么这将是国产芯片发展史上的一个重要“里程碑”，可称之为“DeepSeek时刻”。这充分证明了即便没有H100，我们同样能够打造出世界一流的大模型。

这一突破所带来的边际变化远远超出了市场预期。这个预期的重要性，不亚于Google凭借自研的TPU芯片训练出Gemini。要知道，Google已成为巴菲特的伯克希尔持仓标的，其影响力可见一斑。

此前，市场对国产算力的预期大多停留在“自主可控”的宏大叙事层面，而DeepSeek - V4的出现将把这一逻辑推向“好用且必需”的商业逻辑轨道。

此次受益最大的当属国产GPU厂商。华为、寒武纪已经明确展现出优势。其他国产GPU厂商也将积极适配DeepSeek大模型。从确定性角度来看，以华为、寒武纪为代表的国产芯片、国产服务器及相关配套厂商的受益确定性最高。

展望2026年，寒武纪、壁仞科技、天数智芯等5家已上市AI芯公司Wind一致预期收入同比增长约120%，有望达到约257亿人民币。

此外，从弹性方面来看，沐曦股份预期2026年将扭亏为盈，有望成为继寒武纪之后另一家实现盈利的GPU厂商，从而完成商业闭环。

因此，国产算力无疑将成为AI投资领域继续关注的重点方向。

2.AI应用

除了满足适配国产算力的推理需求外，DeepSeek - V4还可能通过创新架构（mHC和Engram技术）进一步降低训练和推理成本，加速中国AI价值链的创新周期。

同时，DeepSeek有望帮助全球大语言模型和AI应用企业加速商业化进程，从而缓解日益沉重的资本开支压力。

随着Engram架构的落地实施，GPU显存需求降低90%，推理的硬件成本将大幅压缩。这对于终端部署（边缘AI推理）来说，无疑是一个重大利好消息。

此外，今年1月以来，A股AI应用板块表现低迷，其核心痛点在于市场对“大模型吞噬软件”的恐惧。AI应用已经进入了“杀逻辑”的艰难阶段。

但DeepSeek - V4的发布有可能改善这种消极情绪。对于国内A股的应用公司来说，大模型更像是一种廉价的基础设施，有利于优化成本结构。

徽声在线认为，与核心数据绑定较为紧密的AI应用企业、相关云服务厂商，也将有望迎来边际改善的发展契机。

小结

不可否认，英伟达依旧是训练大模型最强大的基础设施，这一点在短期内不会有太大变化。在高端训练GPU、CUDA生态和集群能力方面，英伟达的优势依然难以被轻易替代。

然而，我们也不能忽视，英伟达的优势正在逐步被DeepSeek“曲线救国”式地瓦解。

DeepSeek - V4率先适配国产芯片以及持续创新，正在试图证明AI推理不一定只能依赖最贵的GPU来推动。系统级优化、软硬协同和本地化部署，同样可以开辟出一条崭新的发展道路。而国产算力也将借此机会再向前迈进一大步。

我们既不要高估了英伟达的实力，也不要低估了DeepSeek和国产算力的潜力。

本文来自虎嗅，原文链接：https://www.huxiu.com/article/4852245.html?f=wyxwapp

点击展开全文