DeepSeek-V4震撼发布！百万上下文时代来临，华为昇腾等国产芯片全力支持

2026-04-24 16:33:45未知作者:徽声在线

《徽声在线》4月24日消息（记者黄心怡）今日，DeepSeek-V4的预览版本正式上线并同步开源，这一消息在AI领域引起了广泛关注。DeepSeek-V4模型在上下文处理能力上实现了重大突破，由原有的128K显著扩展至1M，这意味着它能够支持高达百万字的超长上下文处理。同时，该模型的输出长度也达到了最大384Ktokens，为用户提供了更为丰富的信息输出。值得一提的是，DeepSeek-V4首次引入了KV Cache滑窗和压缩算法，有效减少了Attention计算和访存开销，并通过模型架构的创新，更好地支持了Agent和Coding场景的应用。

在硬件支持方面，华为昇腾、天数智芯、寒武纪等国产芯片厂商已经纷纷宣布支持DeepSeek-V4新模型。特别是华为昇腾超节点全系列产品，已经全面支持DeepSeek V4系列模型，实现了DeepSeek V4-Pro 20ms和DeepSeek V4-Flash 10ms的低时延推理，为用户提供了更为流畅的使用体验。

然而，DeepSeek方面也坦诚地表示，受限于高端算力的供应，目前V4-Pro的服务吞吐量仍然有限。不过，他们预计在下半年昇腾950超节点批量上市后，Pro版本的价格将会大幅下调，这将进一步推动DeepSeek-V4模型的普及和应用。

▍百万上下文成为新标配

DeepSeek-V4模型按照规模大小分为两个版本：DeepSeek-V4-Pro（拥有1.6T参数，49B激活）和DeepSeek-V4-Flash（拥有284B参数，13B激活）。这两个版本均同时支持“非思考模式”与“思考模式”，且都具备处理百万字超长上下文的能力。这一特性使得DeepSeek-V4在处理复杂长程任务时更加得心应手。

据介绍，V4系列模型采用了DSA稀疏注意力机制，实现了token维度的压缩，从而让1M（一百万字）超长上下文处理成为标配。这一创新不仅降低了长文本处理对计算和显存的需求，还为复杂长程任务提供了更为坚实的支撑。

其中，DeepSeek-V4-Pro相比前代模型，在Agent能力上有了显著提升。在Agentic Coding评测中，V4-Pro已经达到了当前开源模型的最佳水平，并在其他Agent相关评测中也表现出色。据评测反馈，其使用体验优于Sonnet 4.5，交付质量接近Opus4.6非思考模式，但仍与Opus4.6思考模式存在一定差距。

在世界知识测评中，DeepSeek-V4-Pro也展现出了强大的实力，大幅领先其他开源模型，仅稍逊于顶尖闭源模型Gemini-Pro-3.1。而在数学、STEM、竞赛型代码的测评中，DeepSeek-V4-Pro更是超越了当前所有已公开评测的开源模型，取得了与世界顶级闭源模型相媲美的成绩。

另一方面，DeepSeek-V4-Flash模型虽然参数下降至284B，但其推理成本也进一步降低，模型参数和激活更小，这使得它在某些特定场景下具有更高的性价比。

相比DeepSeek-V4-Pro，DeepSeek-V4-Flash在世界知识储备方面稍显不足，但其推理能力却与之接近。由于模型参数和激活更小，V4-Flash能够提供更加快捷、经济的API服务，满足用户对高效、低成本的需求。

在Agent测评中，DeepSeek-V4-Flash在简单任务上与DeepSeek-V4-Pro表现相当，但在高难度任务上仍有提升空间。不过，这并不影响它在某些特定场景下的广泛应用。

▍国产芯片全面支持DeepSeek-V4

目前，华为昇腾超节点全系列产品已经全面支持DeepSeek V4系列模型，实现了DeepSeek V4-Pro 20ms和DeepSeek V4-Flash 10ms的低时延推理。这一支持不仅提升了模型的处理速度，还为用户提供了更为稳定、可靠的服务。

据了解，昇腾950、昇腾A3超节点已经对DeepSeek V4系列模型进行了全面适配。同时，为了便于用户快速微调模型，还提供了基于昇腾A3超节点的训练参考实现，进一步降低了用户的使用门槛。

基于DeepSeekV4-Pro模型，在8K输入场景下，昇腾950超节点可以实现TPOT约20ms时单卡Decode吞吐4700TPS的优异性能。而DeepSeek V4-Flash模型在8K长序列输入场景下，则可以实现TPOT约10ms时单卡Decode吞吐1600TPS的高效处理。

此外，基于昇腾A3 64卡超节点结合大EP模式部署，DeepSeek V4-Flash模型在8K/1K输入输出场景下，基于vLLM推理引擎可以实现2000+TPS的单卡Decode吞吐。针对DeepSeek V4-Pro模型，昇腾A3也同步支持推理部署，并持续进行性能优化，以提供更为出色的服务。

国产GPU厂商天数智芯也完成了与DeepSeek-V4的Day 0级适配。据悉，天数智芯以天垓系列训练芯片与智铠系列推理芯片为核心，全面承接DeepSeek-V4的全场景应用，为用户提供了更为多样化的选择。

而寒武纪则基于vLLM推理框架完成了对此次285B DeepSeek-V4-flash和1.6T DeepSeek-V4-pro两个版本的Day 0适配，并将适配代码开源到了GitHub社区，进一步推动了AI技术的共享与发展。

▍下半年昇腾950超节点将批量上市，DeepSeek V4价格有望下调

根据DeepSeep官方文档介绍，DeepSeek V4并不是只在英伟达体系内做优化，而是将细粒度专家并行（EP）方案同时在英伟达GPU和华为昇腾NPU上完成验证。这说明其推理路径已经具备了跨算力平台的适配能力，为用户提供了更为灵活的选择。

然而，在开源层面，当前释放的仍主要是基于CUDA的MegaMoE和DeepGEMM，底层实现深度绑定英伟达工具链。这也意味着，在短期内，DeepSeek V4可能仍然会在一定程度上依赖于英伟达的硬件支持。

从价格方面来看，DeepSeek V4-Pro的输入（缓存命中）是1元/百万tokens，输入（缓存未命中）是12元，输出是24元；而V4-Flash的输入（缓存命中）则是0.2元/百万tokens，输入（缓存未命中）是1元，输出是2元。这一价格策略使得不同版本的产品能够满足不同用户的需求。

值得一提的是，官方API页面在小字中提到，受限于高端算力的供应，目前V4-Pro的服务吞吐量仍然有限。不过，他们预计在下半年昇腾950超节点批量上市后，Pro版本的价格将会大幅下调。这意味着，DeepSeek正在尝试将模型运行时从单一硬件依赖中解耦出来，为用户提供更为灵活、经济的解决方案。

此外，华为云也首发适配了DeepSeek-V4模型。华为云MaaS模型即服务平台已经为开发者提供了免部署、一键调用DeepSeek-V4-Flash API的Tokens服务，进一步降低了用户的使用门槛，推动了AI技术的普及与应用。

点击展开全文