时间与地点
2026年1月12日晚间,中国人工智能初创公司DeepSeek与北京大学研究人员联合发布了一项重要技术论文。
核心人物
- 梁文锋:DeepSeek创始人,论文共同作者
- 张辉帅:北京大学王选计算机研究所助理教授,前微软亚洲研究院首席研究员
- 共14位共同作者参与此项研究
技术核心:Engram条件记忆
这项题为《基于可扩展查找的条件记忆:大语言模型稀疏性的新维度》的论文,提出了一种名为Engram(记忆痕迹)的“条件记忆”技术。
技术突破点
- 解决关键瓶颈:专门应对GPU高带宽内存容量有限的问题
- 创新架构:将计算与存储“解耦”,实现O(1)时间复杂度的知识查找
- 效率提升:解放注意力机制,使模型更专注于全局上下文建模
实验验证与性能提升
研究人员在270亿参数模型中验证该技术,结果显示在多类任务上均有显著提升:
- 知识检索任务:MMLU提升3.4分,CMMLU提升4.0分
- 推理能力:BBH提升5.0分,ARC-Challenge提升3.7分
- 代码数学:HumanEval提升3.0分,MATH提升2.4分
- 长上下文处理:多查询NIAH准确率从84.2%跃升至97.0%
技术原理与创新
Engram模块采用了两阶段工作流程:
- 稀疏检索阶段:通过哈希N-grams定位记忆条目
- 上下文感知门控:动态调整检索到的嵌入向量,减少噪声干扰
该技术还发现了U型扩展规律,指导MoE专家与Engram嵌入之间的最优参数分配。
系统优化与成本降低
Engram技术的关键优势在于系统级优化:
- 内存分级利用:热知识存GPU显存,温知识存CPU内存,冷知识存固态硬盘
- 低成本部署:用消费级显卡+大容量内存条即可运行千亿参数模型
- 吞吐量损失:小于3%,在实际应用中可忽略不计
行业影响与意义
- 突破硬件限制:为中国AI企业在算力差距背景下实现成本效率最大化提供新路径
- 模型部署民主化:大幅降低大模型部署门槛,使更多开发者能够使用先进AI技术
- 技术领先性:Hugging Face研究工程师Elie Bakouch称赞该技术“在推理和训练时用硬件上验证了这一技术”
未来展望
此次技术发布恰逢DeepSeek即将发布V4新模型前夕,外界预计Engram技术将成为DeepSeek V4的“技术底牌”之一,帮助新模型在编程能力和复杂逻辑推理上实现重大突破。
总结
DeepSeek与北京大学合作的这项Engram条件记忆技术,代表了大模型架构的重要创新方向。通过将条件记忆与条件计算相结合,不仅有效突破了GPU内存瓶颈,更在多项核心能力上实现显著性能提升。这一技术为中国AI企业在全球竞争中找到了一条高效率、低成本的发展路径,有望推动整个行业向更高效、更可扩展的方向发展。
内容来源
© 版权声明
The copyright of the article belongs to the author, please do not reprint without permission.
相关文章
暂无评论...











