快报内容
时间:2026年1月上旬(技术论文与模型于2026年1月3日至14日期间陆续发布)
地点:中国深圳(腾讯微信AI团队主导,联合北京大学、清华大学共同研发)
主要人物:腾讯微信AI团队刘瑷玮、何明桦、曾少勋等研究人员,以及来自北京大学和清华大学的合作者
事件概述:
腾讯微信AI团队正式推出新型扩散语言模型框架WeDLM(WeChat Diffusion Language Model),这一突破性技术解决了传统大语言模型在并行推理效率上的瓶颈问题。
WeDLM的核心创新在于通过拓扑重排序技术将扩散模型与标准因果注意力机制结合,使并行生成过程兼容KV缓存技术。该框架包含三大关键技术:拓扑重排序(Topological Reordering)、双流掩码(Dual-Stream Masking)训练策略以及流式并行解码(Streaming Parallel Decoding)算法。这些技术确保了模型在保持因果注意力的同时,让每个掩码位置能够访问完整的观测上下文。
在性能表现上,WeDLM取得了显著突破。基于Qwen3-8B初始化的WeDLM-8B模型在数学推理任务GSM8K上准确率达到90.2%,超越基线4.2个百分点,同时推理速度达到vLLM部署的自回归模型的3倍。在低熵场景(如计数、翻译)中,速度提升更可达10倍以上。在生成质量方面,WeDLM在ARC、MMLU、Hellaswag等多个基准测试中表现相当或优于传统自回归模型。
影响与意义:
WeDLM是首个在工业级推理引擎(vLLM)优化条件下,推理速度超越同等自回归模型的扩散语言模型,标志着大模型推理技术的重要突破。
这一技术对AI产业应用将产生深远影响:在移动端,WeDLM的加速效果能够让微信等超级应用内的AI交互体验更加流畅;在企业级部署中,3-6倍的推理速度提升将大幅降低服务器资源消耗和运营成本。该模型特别适用于智能客服、代码辅助生成、实时问答等对实时性要求高的场景。
微信AI团队已将WeDLM-8B模型开源,推动技术普惠化发展。团队计划在2026年第一季度发布34B规模版本,并推出多模态扩展,进一步拓展模型的应用边界。
6. 总结
腾讯微信AI团队推出的WeDLM框架代表了扩散语言模型发展的重大进步,通过创新的拓扑重排序技术成功解决了扩散模型与KV缓存兼容性的关键难题。这一突破不仅实现了3-10倍的推理速度提升,同时保持了优异的生成质量,为AI技术在实际应用中的普及奠定了新的技术基础。随着模型开源和后续开发计划的推进,WeDLM有望成为推动AI产业效率革命的重要力量。
7. 内容参考来源
标题:内容参考来源
URL:
- 《微信AI团队提出新型扩散语言模型框架:WeDLM》
- 《【产业资讯】腾讯微信 AI 团队推出新型扩散语言模型 WeDLM,提升推理效率》
- 《【资讯分享】微信AI团队WeDLM:扩散解码提速AR模型3倍,保持生成质量》
- 《【架构革命】WeDLM突破:微信扩散语言模型重塑AI推理速度边界》
- 《MLNLP学术Talk第六十六期 | 刘瑷玮@腾讯微信 AI 研究员:WeDLM:基于因果注意力重构扩散语言模型,实现高效并行推理》
- 《微信炼出扩散语言模型,实现vLLM部署AR模型3倍加速,低熵场景超10倍》
- 《腾讯发布推理模型WeDLM》
- 《腾讯微信 AI 团队发布WeDLM,在数学推理等中熵场景实现3 倍 + 加速,低熵场景(如计数、翻译)更是达到10 倍 + 性能提升》
© 版权声明
The copyright of the article belongs to the author, please do not reprint without permission.
相关文章
暂无评论...











