DeepSeek-V4震撼发布!百万上下文时代来临,华为昇腾等国产芯片全力支持

2026-04-24 16:33:45未知 作者:徽声在线

《徽声在线》4月24日消息(记者 黄心怡)今日,DeepSeek-V4的预览版本正式上线并同步开源,这一消息在AI领域引起了广泛关注。DeepSeek-V4模型在上下文处理能力上实现了重大突破,由原有的128K显著扩展至1M,这意味着它能够支持高达百万字的超长上下文处理。同时,该模型的输出长度也达到了最大384Ktokens,为用户提供了更为丰富的信息输出。值得一提的是,DeepSeek-V4首次引入了KV Cache滑窗和压缩算法,有效减少了Attention计算和访存开销,并通过模型架构的创新,更好地支持了Agent和Coding场景的应用。


在硬件支持方面,华为昇腾、天数智芯、寒武纪等国产芯片厂商已经纷纷宣布支持DeepSeek-V4新模型。特别是华为昇腾超节点全系列产品,已经全面支持DeepSeek V4系列模型,实现了DeepSeek V4-Pro 20ms和DeepSeek V4-Flash 10ms的低时延推理,为用户提供了更为流畅的使用体验。

然而,DeepSeek方面也坦诚地表示,受限于高端算力的供应,目前V4-Pro的服务吞吐量仍然有限。不过,他们预计在下半年昇腾950超节点批量上市后,Pro版本的价格将会大幅下调,这将进一步推动DeepSeek-V4模型的普及和应用。

▍百万上下文成为新标配

DeepSeek-V4模型按照规模大小分为两个版本:DeepSeek-V4-Pro(拥有1.6T参数,49B激活)和DeepSeek-V4-Flash(拥有284B参数,13B激活)。这两个版本均同时支持“非思考模式”与“思考模式”,且都具备处理百万字超长上下文的能力。这一特性使得DeepSeek-V4在处理复杂长程任务时更加得心应手。

据介绍,V4系列模型采用了DSA稀疏注意力机制,实现了token维度的压缩,从而让1M(一百万字)超长上下文处理成为标配。这一创新不仅降低了长文本处理对计算和显存的需求,还为复杂长程任务提供了更为坚实的支撑。

其中,DeepSeek-V4-Pro相比前代模型,在Agent能力上有了显著提升。在Agentic Coding评测中,V4-Pro已经达到了当前开源模型的最佳水平,并在其他Agent相关评测中也表现出色。据评测反馈,其使用体验优于Sonnet 4.5,交付质量接近Opus4.6非思考模式,但仍与Opus4.6思考模式存在一定差距。

在世界知识测评中,DeepSeek-V4-Pro也展现出了强大的实力,大幅领先其他开源模型,仅稍逊于顶尖闭源模型Gemini-Pro-3.1。而在数学、STEM、竞赛型代码的测评中,DeepSeek-V4-Pro更是超越了当前所有已公开评测的开源模型,取得了与世界顶级闭源模型相媲美的成绩。

另一方面,DeepSeek-V4-Flash模型虽然参数下降至284B,但其推理成本也进一步降低,模型参数和激活更小,这使得它在某些特定场景下具有更高的性价比。

相比DeepSeek-V4-Pro,DeepSeek-V4-Flash在世界知识储备方面稍显不足,但其推理能力却与之接近。由于模型参数和激活更小,V4-Flash能够提供更加快捷、经济的API服务,满足用户对高效、低成本的需求。

在Agent测评中,DeepSeek-V4-Flash在简单任务上与DeepSeek-V4-Pro表现相当,但在高难度任务上仍有提升空间。不过,这并不影响它在某些特定场景下的广泛应用。

▍国产芯片全面支持DeepSeek-V4

目前,华为昇腾超节点全系列产品已经全面支持DeepSeek V4系列模型,实现了DeepSeek V4-Pro 20ms和DeepSeek V4-Flash 10ms的低时延推理。这一支持不仅提升了模型的处理速度,还为用户提供了更为稳定、可靠的服务。

据了解,昇腾950、昇腾A3超节点已经对DeepSeek V4系列模型进行了全面适配。同时,为了便于用户快速微调模型,还提供了基于昇腾A3超节点的训练参考实现,进一步降低了用户的使用门槛。

基于DeepSeekV4-Pro模型,在8K输入场景下,昇腾950超节点可以实现TPOT约20ms时单卡Decode吞吐4700TPS的优异性能。而DeepSeek V4-Flash模型在8K长序列输入场景下,则可以实现TPOT约10ms时单卡Decode吞吐1600TPS的高效处理。

此外,基于昇腾A3 64卡超节点结合大EP模式部署,DeepSeek V4-Flash模型在8K/1K输入输出场景下,基于vLLM推理引擎可以实现2000+TPS的单卡Decode吞吐。针对DeepSeek V4-Pro模型,昇腾A3也同步支持推理部署,并持续进行性能优化,以提供更为出色的服务。

国产GPU厂商天数智芯也完成了与DeepSeek-V4的Day 0级适配。据悉,天数智芯以天垓系列训练芯片与智铠系列推理芯片为核心,全面承接DeepSeek-V4的全场景应用,为用户提供了更为多样化的选择。

而寒武纪则基于vLLM推理框架完成了对此次285B DeepSeek-V4-flash和1.6T DeepSeek-V4-pro两个版本的Day 0适配,并将适配代码开源到了GitHub社区,进一步推动了AI技术的共享与发展。

▍下半年昇腾950超节点将批量上市,DeepSeek V4价格有望下调

根据DeepSeep官方文档介绍,DeepSeek V4并不是只在英伟达体系内做优化,而是将细粒度专家并行(EP)方案同时在英伟达GPU和华为昇腾NPU上完成验证。这说明其推理路径已经具备了跨算力平台的适配能力,为用户提供了更为灵活的选择。

然而,在开源层面,当前释放的仍主要是基于CUDA的MegaMoE和DeepGEMM,底层实现深度绑定英伟达工具链。这也意味着,在短期内,DeepSeek V4可能仍然会在一定程度上依赖于英伟达的硬件支持。

从价格方面来看,DeepSeek V4-Pro的输入(缓存命中)是1元/百万tokens,输入(缓存未命中)是12元,输出是24元;而V4-Flash的输入(缓存命中)则是0.2元/百万tokens,输入(缓存未命中)是1元,输出是2元。这一价格策略使得不同版本的产品能够满足不同用户的需求。

值得一提的是,官方API页面在小字中提到,受限于高端算力的供应,目前V4-Pro的服务吞吐量仍然有限。不过,他们预计在下半年昇腾950超节点批量上市后,Pro版本的价格将会大幅下调。这意味着,DeepSeek正在尝试将模型运行时从单一硬件依赖中解耦出来,为用户提供更为灵活、经济的解决方案。


此外,华为云也首发适配了DeepSeek-V4模型。华为云MaaS模型即服务平台已经为开发者提供了免部署、一键调用DeepSeek-V4-Flash API的Tokens服务,进一步降低了用户的使用门槛,推动了AI技术的普及与应用。

点击展开全文
你关注的
【出海聚焦】石油危机凸显中国电动车优势,性价比之外更有硬实力【出海聚焦】石油危机凸显中国电动车优势,性价比之外更有硬实力 AI玩具赛道迎重大变革:模型“套壳”问题有望短期解决,智能体研发加速推进AI玩具赛道迎重大变革:模型“套壳”问题有望短期解决,智能体研发加速推进 深圳低空经济全域竞速:百企试飞、基金赋能、标准引领深圳低空经济全域竞速:百企试飞、基金赋能、标准引领
相关文章
DeepSeek-V4震撼发布!百万上下文时代来临,华为昇腾等国产芯片全力支持DeepSeek-V4震撼发布!百万上下文时代来临,华为昇腾等国产芯片全力支持 AUDI品牌新突破:奥迪E7X北京车展全球首秀 预售开启在即AUDI品牌新突破:奥迪E7X北京车展全球首秀 预售开启在即 DeepSeek-V4震撼登场!百万上下文成新标配 华为昇腾与英伟达共筑技术基石DeepSeek-V4震撼登场!百万上下文成新标配 华为昇腾与英伟达共筑技术基石 车展聚焦丨吉利Eva Cab原型车首发 2027年推曹操出行定制版车展聚焦丨吉利Eva Cab原型车首发 2027年推曹操出行定制版 Gartner报告:阿里云中国IaaS市场份额跃升至32.8%领跑行业Gartner报告:阿里云中国IaaS市场份额跃升至32.8%领跑行业 北京车展直击丨沃尔沃全能源阵容登场 发布全系车型置换补贴政策北京车展直击丨沃尔沃全能源阵容登场 发布全系车型置换补贴政策