时间:2026年5月3日
地点:美国华盛顿
人物:美国国家标准与技术研究院(NIST)人工智能标准与创新中心(CAISI)
事件详情:CAISI发布DeepSeek V4能力评估报告,结论是DeepSeek V4落后美国顶级大模型大约8个月。在AI能力评估中,DeepSeek V4得分约800分,而当前最强的GPT-5.5分数超过1200分,GPT-5.4及Opus 4.6也在1000分以上。DeepSeek V4整体性能跟8个月前的GPT-5差不多。
背景:4月24日DeepSeek V4系列大模型正式发布,距离去年的DeepSeek R1更新过去了15个月。此前美国外交关系委员会组织的研究报告也显示其落后美国顶级大模型大约7个月,两个机构的评估结果相近。
影响:
- CAISI承认DeepSeek V4是评测过的中国最强AI大模型,在网络、软件工程、自然科学、抽象推理和数学五个领域九项测试都很强
- DeepSeek V4性价比优势明显,与GPT-5.4 mini相比,在7个基准测试中有4个测试成本更优,高出41%到53%
- 国产大模型在追赶美国顶级模型方面取得显著进展
- 评估结果为中美AI能力差距提供了客观参考
总结:DeepSeek V4虽然与美国顶级AI存在约8个月的差距,但在中国大模型中处于领先地位,且在性价比方面具有显著优势。这反映了国产大模型在技术追赶道路上的持续进步。
参考来源:
- https://finance.sina.com.cn/tech/roll/2026-05-03/doc-inhwqvrh8956229.shtml
- https://so.html5.qq.com/page/real/search_news?docid=70000021_07669f6fb2d28752
- https://so.html5.qq.com/page/real/search_news?docid=70000021_92569f6e5ce53652
- https://i.ifeng.com/c/8skdt1KBgjt
- https://new.qq.com/rain/a/20260501A02PTO00






