2026-05-12 07:12

DeepSeek大范围开放识图模式，正式跨入图文多模态交互时代

时间：2026年5月9日

地点：中国

人物：DeepSeek团队、多模态团队负责人陈小康

事件详情：DeepSeek宣布大范围开放"识图模式"测试资格，目前几乎所有测试账号都能在输入框上方看到该入口。这是DeepSeek多模态视觉理解能力首次接入主线产品，标志着其从纯文本模型正式迈入视觉理解时代。

背景：4月28日至29日，DeepSeek多模态团队负责人陈小康在社交平台X发布预告，随后开启小范围灰度测试。仅五天内，DeepSeek从V4纯文本模型发布到推出视觉理解功能，展现出极强的产品迭代速度。

影响：
- 识图模式不同于简单的OCR文字提取，具备深度图片识别与语义理解能力
- 可识别博物馆文物、推断历史年代、解读表情包梗图、理解网民转发笑点
- 在生产力场景可将包含代码的技术报告或网页截图一键反向生成可交互HTML代码
- 公布"Thinking with Visual Primitives"核心框架，将点、边界框等视觉元素直接融入推理链条

总结：DeepSeek识图模式的推出填补了其在多模态理解领域的空白，使其在追赶GPT-4o等国际顶尖模型的进程中迈出实质性一步。该功能采用创新框架解决"指代鸿沟"困境，在处理800×800分辨率图片时仅消耗约9tokens，展现出高效的算力资源利用率。国产大模型竞争重心正从单一文本生成转向全感官的"视觉语言耦合"，DeepSeek有望在自动化办公、工业视觉理解等垂直领域释放更大生产力。

参考来源：
https://baijiahao.baidu.com/s?id=1864686848124752725
https://baijiahao.baidu.com/s?id=1864692766022987139
https://cloud.tencent.com/developer/article/2662795

热门AI工具推荐