2026-06-28 16:49

DeepSeek联合北大发布DSpark推理加速框架，生成速度提升60%-85%

时间：2026年6月27日

地点：中国北京/杭州

人物：DeepSeek团队、创始人梁文锋、北京大学联合研究团队

事件详情：6月27日，DeepSeek联合北京大学正式发布DSpark推理加速框架，相关论文以《DSpark: Confidence-Scheduled Speculative Decoding with Semi-Autoregressive Generation》为题发表，DeepSeek创始人梁文锋位列作者名单。该框架基于推测解码（Speculative Decoding）方向，创新性地引入半自回归架构（Semi-Autoregressive Generation）与置信度调度验证机制。半自回归架构在并行生成骨干上加入轻量级顺序模块增强token间依赖关系，提高候选生成质量；置信度调度机制则根据不同请求的成功概率与系统负载，自适应调整验证长度，减少无效计算开销。目前DSpark已部署于DeepSeek-V4-Flash与DeepSeek-V4-Pro预览版服务中，在同等吞吐量下将单用户生成速度提升60%至85%。团队同步开源训练框架DeepSpec，支持DSpark、DFlash和Eagle3三种主流算法。

背景：随着大模型在千行百业的广泛应用，高并发生产环境下的推理效率瓶颈成为行业核心痛点。传统推测解码方法虽能加速生成，但在高并发场景下易出现"末尾内容通过率衰减"问题，导致验证算力浪费。推理效率直接关系到AI应用的响应速度和用户体验，也决定了企业的运营成本。DeepSeek此前已凭借R1和V4系列模型在全球AI市场占据重要地位，本次与北京大学合作攻关推理效率难题，体现了产学研协同创新的技术路线。

影响：

推理效率的大幅提升将直接改善DeepSeek V4系列用户的交互体验，降低单次推理的响应延迟。
开源训练框架DeepSpec的发布，降低了社区和开发者进行推测解码研究的门槛，有望推动整个行业推理效率的提升。
该方案不改变核心模型架构即可实现性能提升，为现有大模型系统的推理优化提供了可复用的技术路径。

总结：DSpark框架的发布是DeepSeek在模型推理效率领域的一次重要突破。通过半自回归架构结合置信度调度，在高并发场景下实现了60%-85%的生成速度提升，同时保持输出质量。该框架的全面开源将推动大模型推理技术的快速发展，使高性能AI服务更加可及、成本更低。DeepSeek从基础模型研发到推理基础设施优化的全面布局，进一步巩固了其在全球AI竞争中的技术领先地位。

参考来源：

https://news.qq.com/rain/a/20260627A074M500
https://news.qq.com/rain/a/20260628A02X4H00
https://next.ithome.com/ai
https://so.html5.qq.com/page/real/search_news?docid=70000021_2536a3fbcf015452
https://so.html5.qq.com/page/real/search_news?docid=70000021_2296a40001f43352
https://so.html5.qq.com/page/real/search_news?docid=70000021_9096a40b35f00352
https://so.html5.qq.com/page/real/search_news?docid=70000021_2516a408f7782952

热门AI工具推荐