时间:2026年6月27日
地点:中国北京
人物:DeepSeek团队、北京大学、DeepSeek创始人梁文锋
事件详情:2026年6月27日,DeepSeek联合北京大学正式发布DSpark推理加速框架,相关论文已在GitHub DeepSpec项目中开源。DSpark采用创新的半自回归架构与置信度调度验证机制,旨在解决大语言模型在高并发生产环境中的推理效率瓶颈。该框架已部署于DeepSeek-V4-Flash与DeepSeek-V4-Pro的预览版服务引擎中,经过真实线上服务验证,在同等吞吐量条件下可比现有生产基线MTP-1将单用户生成速度提升60%至85%。论文由DeepSeek创始人梁文锋署名,开源内容包括模型检查点与训练框架DeepSpec工具链。在技术层面,DSpark提出了两项关键创新:一是半自回归架构,在并行主干网络上叠加轻量级顺序模块,兼顾并行效率与序列依赖关系建模;二是基于置信度的动态验证机制,根据请求成功概率和系统负载自适应调整验证长度,避免高并发下无效计算资源浪费。该技术以MIT协议全栈开源,并支持阿里Qwen、Google Gemma等第三方模型适配。
背景:大语言模型采用自回归方式生成文本,每生成一个新token都需要一次完整前向传播,推理延迟随输出长度线性增长,这是当前AI对话系统响应偏慢的核心原因。推测解码技术提供了一条解决路径:用轻量级小模型快速生成候选token,再由完整规模大模型并行验证。但现有主流方案如自回归草稿模型Eagle3和并行草稿模型DFlash各有缺陷——前者生成延迟随候选长度线性增长,后者在长候选块后端token接受率急剧衰减。DeepSeek此次发布的DSpark正是针对这些行业痛点提出工程化解决方案。此前DeepSeek刚完成500亿元首轮融资,估值突破4000亿元,此次在推理效率上的突破进一步彰显了其在AI基础设施领域的技术实力。
影响:
- DSpark的发布将显著降低大模型推理成本,对DeepSeek自身线上服务用户而言,等待时间将大幅缩短,体验质的飞跃
- MIT协议开源意味着全球开发者均可将DSpark集成到自己的推理系统中,推动整个AI行业推理效率的整体提升
- 标志着大模型竞争重心从参数规模和模型能力转向算力利用效率与工程化落地能力,推理优化成为新的核心战场
总结:DeepSeek联合北大开源的DSpark推理加速框架,是AI基础设施领域的一次重要技术突破。60%-85%的推理速度提升意味着在相同算力条件下可以服务更多用户或提供更快的响应。在当前大模型行业加速落地的背景下,推理效率已成为衡量AI公司核心竞争力的关键指标。DeepSeek通过开源策略,再次践行了其推动社区发展的承诺,同时也向业界展示了其在工程化能力上的深厚积累。
参考来源:
- https://baijiahao.baidu.com/s?id=1869135420306798470
- https://baijiahao.baidu.com/s?id=1869145354847192644
- https://baijiahao.baidu.com/s?id=1869151456061753296
- https://news.sina.cn/bignews/2026-06-27/detail-inieuyia4894428.d.html









