DeepSeek V4 识图模式灰度上线,最后一块短板补上了

DeepSeek V4 识图模式灰度上线,最后一块短板补上了

核心判断

国内头部大模型中,最后一个不支持看图的选手终于补上了短板。DeepSeek V4 识图模式的上线速度令人意外——1M 上下文功能刚发布没几天,转头又甩出新功能。

没有发布会,没有通稿,典型的 DeepSeek 风格:一个研究员发了个帖子、删掉,功能就悄悄上线了。

发生了什么

4 月 30 日前后,DeepSeek V4 在官方 App 中新增了”识图模式”标签,与”快速模式”和”专家模式”并列出现在对话框上方,提示语显示”图片理解功能内测中”。

这标志着 DeepSeek 从纯文本模型正式迈入多模态领域。

实测体验:真看懂了,不是 OCR

文章作者进行了一项简单但关键的测试:上传了一张没有任何文字的桂林象鼻山照片。

DeepSeek V4 不仅识别出了地标名称,还给出了形态特征推理和地理位置信息——这证明它具备了真正的场景理解能力,而不仅仅是 OCR 文字提取。

测试对比:

  • OCR 能力:识别图片中的文字(DeepSeek 之前已支持)
  • 视觉理解:理解画面内容、推理场景含义(识图模式新增能力)

这是两个不同层级的能力。识图模式补齐的是后者。

为什么重要

1. 补齐最后一块短板

在国内头部大模型阵营中,此前几乎所有竞品(通义千问、文心一言、Kimi、智谱 GLM)都已支持多模态输入。DeepSeek 是唯一一个仍然纯文本的头部选手。这次更新补齐了这一差距。

2. 迭代速度惊人

V4 刚刚发布不久,1M 上下文窗口功能的热度还没消退,识图模式就接踵而至。这种迭代节奏在国产大模型中属于第一梯队。

3. 灰度内测模式

识图模式目前为灰度内测,部分用户可能还未看到入口。官方建议没有看到”识图模式”图标的用户升级 App 版本。

技术背景分析

DeepSeek V4 此前已展示了强大的推理能力和超大规模上下文处理能力(1M tokens)。新增的视觉理解能力大概率是在原有架构基础上的视觉编码器扩展,而非从零构建的多模态模型。

这种”渐进式多模态”路线的优势:

  • 快速迭代:不需要等完整的 V5 版本,现有架构就能扩展视觉能力
  • 用户体验统一:在同一个模型中无缝切换文本和视觉任务
  • 成本可控:相比从头训练多模态模型,增量训练成本更低

行业格局更新

截至 2026 年 4 月底,国产头部模型多模态能力对比:

模型文本视觉代码长上下文
DeepSeek V4✅ (灰度)✅ (1M)
Qwen 系列
文心 5.1
Kimi K2.6
智谱 GLM

DeepSeek V4 在补齐视觉短板后,与竞品的能力差距已基本抹平。下一步的差异化竞争将聚焦于:视觉精度、Agent 能力、以及垂直场景的优化。

行动建议

  • DeepSeek 用户:升级 App 到最新版本,尝试识图模式
  • 竞品用户:关注 DeepSeek V4 视觉能力的实测表现,对比现有方案
  • 行业观察者:注意 DeepSeek 是否会进一步开放 API 的视觉接口,这将是企业服务的关键信号