DeepSeek新论文揭秘：DSpark框架如何让大模型推理速度飙升？梁文锋领衔

2026-06-28 12:07:05未知作者:徽声在线

当整个行业都在热衷于比较哪个大模型更加智能时，DeepSeek却将焦点对准了一个更为实际且迫切的问题——如何让大模型运行得更加迅速高效。

6月27日，DeepSeek在Github上悄然发布了一篇最新研究论文，详细介绍了其自主研发的推理加速框架DSpark，旨在攻克大语言模型在高并发场景下所面临的推理效率瓶颈难题。

从论文的作者署名情况来看，该研究是DeepSeek与北京大学携手合作的成果，值得一提的是，DeepSeek的创始人梁文锋也亲自参与了论文的撰写工作。在论文中，研究团队不仅开源了DSpark模型的权重，还同步发布了面向推测解码、由先进算法驱动的训练代码仓库DeepSpec，为行业提供了宝贵的技术资源。

DeepSeek最新论文的相关截图

此次发布的论文延续了DeepSeek一贯的技术导向风格，其标题便显得颇为专业且深奥——《DSpark：基于置信度调度的半自回归生成推测解码》（《DSpark:Confidence-Scheduled Speculative Decoding with Semi-Autoregressive Generation》）。

在论文中，DeepSeek团队首先对当前大语言模型所面临的问题进行了深入剖析。他们指出，大语言模型在生成文本时采用的是自回归方式，即每一个新词元的生成都需要基于全部前置词元完成一次完整的前向传播。这种方式的弊端在于，随着输出长度的增加，用户的等待时间也会相应延长，同时GPU的利用率也会变得低下。这一问题在大语言模型的线上服务中尤为突出，特别是在实时对话助手、多轮智能体工作流等对时延极为敏感的场景中。

目前，针对这一问题，主流的解决方案主要分为自回归草稿模型（如Eagle3）和并行草稿模型（如DFlash）两条路线。然而，这两种方案都存在着各自的缺陷，如生成质量瓶颈和系统效率瓶颈等。更为关键的是，现有方案均缺乏负载自适应校验机制，无法根据实际负载情况动态调整校验策略。

基于以上分析，DeepSeek团队提出了DSpark推测解码框架。该框架采用半自回归架构，通过两套互补的机制巧妙地解决了草稿生成与校验环节之间的权衡矛盾。它将高吞吐的并行生成能力与自适应的负载感知校验机制融为一体，从而实现了推理效率的大幅提升。

根据论文中的实验数据，在数学推理、代码生成以及日常闲聊三类任务的受控离线基准测试中，相较于自回归草稿模型和并行草稿模型，Dspark框架能够显著提升单轮平均可接受词元的长度。这意味着在相同的输出质量下，DSpark框架能够更快地生成文本。

DeepSeek团队已经将DSpark框架成功部署到了DeepSeek-V4在线服务系统中，并基于真实用户流量对其实际性能进行了全面评估。评估结果显示，在相同吞吐量条件下，DSpark框架将用户端的生成速度提升了60%-85%。这一数据充分证明了DSpark框架在实际应用中的卓越性能。

此外，DeepSeek团队还将DSpark框架应用到了其他模型上，以阿里旗下的Qwen3-4B、8B、14B三个模型为例进行测试。实验结果表明，相较于自回归草稿模型，DSpark框架在这三个模型上的平均单轮可接受词元长度分别提升了30.9%、26.7%、30%；而相较于并行草稿模型，DSpark框架则分别提升了16.3%、18.4%、18.3%。这些数据进一步验证了DSpark框架的跨模型通用性和卓越性能。

从技术层面来看，这篇论文的主要价值在于通过算法创新显著提升了模型的推理生成速度。在当前大模型行业逐渐走向落地应用的背景下，谁能够更便宜、更快速地输出结果，谁就能够在激烈的市场竞争中占据优势地位。此外，DeepSeek通过开源DSpark框架，再次为社区的发展做出了积极贡献，推动了整个行业的技术进步。

“AI Infra再次被DeepSeek加速了。”在社交平台上，有开发者如此评价道。也有用户认为，DeepSeek最令人钦佩的地方在于，在模型不断迭代升级的同时，其推理基础设施也在同步更新。发布V4版本时，不仅带来了推理优化，还附带了论文和代码，并验证了跨模型的通用性。这种全方位的技术输出和开放态度，无疑为整个行业树立了新的标杆。

即便近期频频传出融资消息，未来可能需要走向商业化道路，但通过开源DSpark框架这一举措，DeepSeek似乎在向外界证明自己仍然会坚守开源的初心和使命。

点击展开全文