DeepSeek联合北大发布突破性“条件记忆”技术,破解GPU内存瓶颈

AI简报4小时前更新 AI产品库
10 0 0

时间与地点

2026年1月12日晚间,中国人工智能初创公司DeepSeek与北京大学研究人员联合发布了一项重要技术论文。

核心人物

  • 梁文锋DeepSeek创始人,论文共同作者
  • 张辉帅:北京大学王选计算机研究所助理教授,前微软亚洲研究院首席研究员
  • 14位共同作者参与此项研究

技术核心:Engram条件记忆

这项题为《基于可扩展查找的条件记忆:大语言模型稀疏性的新维度》的论文,提出了一种名为Engram(记忆痕迹)的“条件记忆”技术

技术突破点

  1. 解决关键瓶颈:专门应对GPU高带宽内存容量有限的问题
  2. 创新架构:将计算与存储“解耦”,实现O(1)时间复杂度的知识查找
  3. 效率提升:解放注意力机制,使模型更专注于全局上下文建模

实验验证与性能提升

研究人员在270亿参数模型中验证该技术,结果显示在多类任务上均有显著提升:

  • 知识检索任务:MMLU提升3.4分,CMMLU提升4.0分
  • 推理能力:BBH提升5.0分,ARC-Challenge提升3.7分
  • 代码数学:HumanEval提升3.0分,MATH提升2.4分
  • 长上下文处理:多查询NIAH准确率从84.2%跃升至97.0%

技术原理与创新

Engram模块采用了两阶段工作流程:

  1. 稀疏检索阶段:通过哈希N-grams定位记忆条目
  2. 上下文感知门控:动态调整检索到的嵌入向量,减少噪声干扰

该技术还发现了U型扩展规律,指导MoE专家与Engram嵌入之间的最优参数分配。

系统优化与成本降低

Engram技术的关键优势在于系统级优化

  • 内存分级利用:热知识存GPU显存,温知识存CPU内存,冷知识存固态硬盘
  • 低成本部署:用消费级显卡+大容量内存条即可运行千亿参数模型
  • 吞吐量损失:小于3%,在实际应用中可忽略不计

行业影响与意义

  1. 突破硬件限制:为中国AI企业在算力差距背景下实现成本效率最大化提供新路径
  2. 模型部署民主化:大幅降低大模型部署门槛,使更多开发者能够使用先进AI技术
  3. 技术领先性:Hugging Face研究工程师Elie Bakouch称赞该技术“在推理和训练时用硬件上验证了这一技术”

未来展望

此次技术发布恰逢DeepSeek即将发布V4新模型前夕,外界预计Engram技术将成为DeepSeek V4的“技术底牌”之一,帮助新模型在编程能力和复杂逻辑推理上实现重大突破。

总结

DeepSeek与北京大学合作的这项Engram条件记忆技术,代表了大模型架构的重要创新方向。通过将条件记忆与条件计算相结合,不仅有效突破了GPU内存瓶颈,更在多项核心能力上实现显著性能提升。这一技术为中国AI企业在全球竞争中找到了一条高效率、低成本的发展路径,有望推动整个行业向更高效、更可扩展的方向发展。

内容来源

  1. 梁文锋署名DeepSeek新论文,“突破GPU内存限制”
  2. DeepSeek 新论文或「泄密」V4 杀手锏:一招突破瓶颈,居然把 CPU 当 GPU 用?
  3. 刚刚,梁文锋署名开源「记忆」模块,DeepSeek V4更细节了
  4. 梁文锋署名!DeepSeek再发炸裂论文:提出“条件记忆”新范式,彻底打破GPU推理显存墙
  5. DeepSeek-V3 新论文来了!通过硬件感知协同设计揭开低成本大型模型训练的秘密
  6. 梁文锋署名DeepSeek新论文,“突破GPU内存限制”
© 版权声明

相关文章

腾讯元宝

暂无评论

您必须登录才能参与评论!
立即登录
none
暂无评论...