美国NIST评估DeepSeek V4落后顶级AI约8个月,性价比优势显著

时间:2026年5月3日

地点:美国华盛顿

人物:美国国家标准与技术研究院(NIST)人工智能标准与创新中心(CAISI)

事件详情:CAISI发布DeepSeek V4能力评估报告,结论是DeepSeek V4落后美国顶级大模型大约8个月。在AI能力评估中,DeepSeek V4得分约800分,而当前最强的GPT-5.5分数超过1200分,GPT-5.4及Opus 4.6也在1000分以上。DeepSeek V4整体性能跟8个月前的GPT-5差不多。

背景:4月24日DeepSeek V4系列大模型正式发布,距离去年的DeepSeek R1更新过去了15个月。此前美国外交关系委员会组织的研究报告也显示其落后美国顶级大模型大约7个月,两个机构的评估结果相近。

影响:
- CAISI承认DeepSeek V4是评测过的中国最强AI大模型,在网络、软件工程、自然科学、抽象推理和数学五个领域九项测试都很强
- DeepSeek V4性价比优势明显,与GPT-5.4 mini相比,在7个基准测试中有4个测试成本更优,高出41%到53%
- 国产大模型在追赶美国顶级模型方面取得显著进展
- 评估结果为中美AI能力差距提供了客观参考

总结:DeepSeek V4虽然与美国顶级AI存在约8个月的差距,但在中国大模型中处于领先地位,且在性价比方面具有显著优势。这反映了国产大模型在技术追赶道路上的持续进步。

参考来源:
- https://finance.sina.com.cn/tech/roll/2026-05-03/doc-inhwqvrh8956229.shtml
- https://so.html5.qq.com/page/real/search_news?docid=70000021_07669f6fb2d28752
- https://so.html5.qq.com/page/real/search_news?docid=70000021_92569f6e5ce53652
- https://i.ifeng.com/c/8skdt1KBgjt
- https://new.qq.com/rain/a/20260501A02PTO00

热门AI工具推荐

AI编程订阅服务,支持多款国产主流编程模型自由切换。
Seedance 2.0AI视频生成
具备卓越的物理真实性和角色一致性,可生成电影级视频内容。
SpeedAIAI内容检测降重
AI内容检测与降重工具,能有效帮助用户通过论文AI率检测
MonkeyCodeAI编程平台
企业级AI编程平台,支持私有化部署和自然语言编程以及MiniMax-M2.7免费无限量使用
秒哒AI工具
不懂代码也能开发应用?百度秒哒:无需编程,快速搭建小程序与网站
有戏AIAI漫剧生成工具
全流程AI短剧创作工具,实现从剧本到成片的自动化生产,让“一人即剧组”成为现实。
沁言学术智能科研平台
一站式文献管理与科研写作工具,支持边写作边搜索文献,高效阅读,文献管理,