2026-05-06 01:19

DeepSeek多模态识图功能上线,补齐视觉理解短板直追GPT

时间: 2026年5月5日

地点: 中国

人物: DeepSeek、深度求索公司

事件详情: 5月5日,DeepSeek的识图模式开始灰度测试,网页版和App里部分用户已经能看到它和快速模式、专家模式并列出现。这是DeepSeek在多模态领域的重要突破,此前其语言和推理能力已跻身第一梯队,但视觉理解一直缺位。现在补上识图功能,终于补齐了多模态短板。

背景: DeepSeek一直以来最大的短板就是多模态能力。5天前,DeepSeek刚发布V4预览版,在Agent能力、世界知识和推理性能上均实现国内与开源领域的领先。此次识图模式上线,意味着DeepSeek在视觉理解方面取得重大突破。后端配置显示该功能为"图片理解功能内测中",目前处于灰度测试阶段。

影响:
- DeepSeek补齐多模态短板,综合能力直追GPT等国际顶尖模型
- 为国产大模型多模态发展树立新标杆,缩小与国际差距
- 识图功能支持多种场景应用,提升用户体验和实用价值
- 可能引发国产大模型多模态竞争新一轮升级

总结: DeepSeek多模态识图功能上线,标志着国产大模型在多模态领域取得重要突破。此前DeepSeek在语言和推理能力上已达到国际一流水平,但视觉理解的缺失一直是明显短板。此次识图模式通过灰度测试,显示DeepSeek已具备视觉理解能力,能够识别图片内容、理解文化语境、处理反直觉问题。这补齐了多模态短板,使DeepSeek的综合能力更加全面,直追GPT等国际顶尖模型。随着多模态能力完善,DeepSeek在企业应用和个人助手场景的竞争力将大幅提升。

参考来源:
https://so.html5.qq.com/page/real/search_news?docid=70000021_31269f96ec567152

热门AI工具推荐