时间:2026年6月27日
地点:中国北京/杭州
人物:DeepSeek团队、创始人梁文锋、北京大学联合研究团队
事件详情:6月27日,DeepSeek联合北京大学正式发布DSpark推理加速框架,相关论文以《DSpark: Confidence-Scheduled Speculative Decoding with Semi-Autoregressive Generation》为题发表,DeepSeek创始人梁文锋位列作者名单。该框架基于推测解码(Speculative Decoding)方向,创新性地引入半自回归架构(Semi-Autoregressive Generation)与置信度调度验证机制。半自回归架构在并行生成骨干上加入轻量级顺序模块增强token间依赖关系,提高候选生成质量;置信度调度机制则根据不同请求的成功概率与系统负载,自适应调整验证长度,减少无效计算开销。目前DSpark已部署于DeepSeek-V4-Flash与DeepSeek-V4-Pro预览版服务中,在同等吞吐量下将单用户生成速度提升60%至85%。团队同步开源训练框架DeepSpec,支持DSpark、DFlash和Eagle3三种主流算法。
背景:随着大模型在千行百业的广泛应用,高并发生产环境下的推理效率瓶颈成为行业核心痛点。传统推测解码方法虽能加速生成,但在高并发场景下易出现"末尾内容通过率衰减"问题,导致验证算力浪费。推理效率直接关系到AI应用的响应速度和用户体验,也决定了企业的运营成本。DeepSeek此前已凭借R1和V4系列模型在全球AI市场占据重要地位,本次与北京大学合作攻关推理效率难题,体现了产学研协同创新的技术路线。
影响:
- 推理效率的大幅提升将直接改善DeepSeek V4系列用户的交互体验,降低单次推理的响应延迟。
- 开源训练框架DeepSpec的发布,降低了社区和开发者进行推测解码研究的门槛,有望推动整个行业推理效率的提升。
- 该方案不改变核心模型架构即可实现性能提升,为现有大模型系统的推理优化提供了可复用的技术路径。
总结:DSpark框架的发布是DeepSeek在模型推理效率领域的一次重要突破。通过半自回归架构结合置信度调度,在高并发场景下实现了60%-85%的生成速度提升,同时保持输出质量。该框架的全面开源将推动大模型推理技术的快速发展,使高性能AI服务更加可及、成本更低。DeepSeek从基础模型研发到推理基础设施优化的全面布局,进一步巩固了其在全球AI竞争中的技术领先地位。
参考来源:
- https://news.qq.com/rain/a/20260627A074M500
- https://news.qq.com/rain/a/20260628A02X4H00
- https://next.ithome.com/ai
- https://so.html5.qq.com/page/real/search_news?docid=70000021_2536a3fbcf015452
- https://so.html5.qq.com/page/real/search_news?docid=70000021_2296a40001f43352
- https://so.html5.qq.com/page/real/search_news?docid=70000021_9096a40b35f00352
- https://so.html5.qq.com/page/real/search_news?docid=70000021_2516a408f7782952









