DeepSeek多模态识图功能上线,补齐视觉理解短板直追GPT

时间: 2026年5月5日

地点: 中国

人物: DeepSeek、深度求索公司

事件详情: 5月5日,DeepSeek的识图模式开始灰度测试,网页版和App里部分用户已经能看到它和快速模式、专家模式并列出现。这是DeepSeek在多模态领域的重要突破,此前其语言和推理能力已跻身第一梯队,但视觉理解一直缺位。现在补上识图功能,终于补齐了多模态短板。

背景: DeepSeek一直以来最大的短板就是多模态能力。5天前,DeepSeek刚发布V4预览版,在Agent能力、世界知识和推理性能上均实现国内与开源领域的领先。此次识图模式上线,意味着DeepSeek在视觉理解方面取得重大突破。后端配置显示该功能为"图片理解功能内测中",目前处于灰度测试阶段。

影响:
- DeepSeek补齐多模态短板,综合能力直追GPT等国际顶尖模型
- 为国产大模型多模态发展树立新标杆,缩小与国际差距
- 识图功能支持多种场景应用,提升用户体验和实用价值
- 可能引发国产大模型多模态竞争新一轮升级

总结: DeepSeek多模态识图功能上线,标志着国产大模型在多模态领域取得重要突破。此前DeepSeek在语言和推理能力上已达到国际一流水平,但视觉理解的缺失一直是明显短板。此次识图模式通过灰度测试,显示DeepSeek已具备视觉理解能力,能够识别图片内容、理解文化语境、处理反直觉问题。这补齐了多模态短板,使DeepSeek的综合能力更加全面,直追GPT等国际顶尖模型。随着多模态能力完善,DeepSeek在企业应用和个人助手场景的竞争力将大幅提升。

参考来源:
https://so.html5.qq.com/page/real/search_news?docid=70000021_31269f96ec567152

热门AI工具推荐

AI编程订阅服务,支持多款国产主流编程模型自由切换。
Seedance 2.0AI视频生成
具备卓越的物理真实性和角色一致性,可生成电影级视频内容。
SpeedAIAI内容检测降重
AI内容检测与降重工具,能有效帮助用户通过论文AI率检测
MonkeyCodeAI编程平台
企业级AI编程平台,支持私有化部署和自然语言编程以及MiniMax-M2.7免费无限量使用
秒哒AI工具
不懂代码也能开发应用?百度秒哒:无需编程,快速搭建小程序与网站
有戏AIAI漫剧生成工具
全流程AI短剧创作工具,实现从剧本到成片的自动化生产,让“一人即剧组”成为现实。
沁言学术智能科研平台
一站式文献管理与科研写作工具,支持边写作边搜索文献,高效阅读,文献管理,