DeepSeek V4 识图模式灰度上线，最后一块短板补上了

核心判断

国内头部大模型中，最后一个不支持看图的选手终于补上了短板。DeepSeek V4 识图模式的上线速度令人意外——1M 上下文功能刚发布没几天，转头又甩出新功能。

没有发布会，没有通稿，典型的 DeepSeek 风格：一个研究员发了个帖子、删掉，功能就悄悄上线了。

4 月 30 日前后，DeepSeek V4 在官方 App 中新增了”识图模式”标签，与”快速模式”和”专家模式”并列出现在对话框上方，提示语显示”图片理解功能内测中”。

这标志着 DeepSeek 从纯文本模型正式迈入多模态领域。

文章作者进行了一项简单但关键的测试：上传了一张没有任何文字的桂林象鼻山照片。

DeepSeek V4 不仅识别出了地标名称，还给出了形态特征推理和地理位置信息——这证明它具备了真正的场景理解能力，而不仅仅是 OCR 文字提取。

测试对比：

这是两个不同层级的能力。识图模式补齐的是后者。

在国内头部大模型阵营中，此前几乎所有竞品（通义千问、文心一言、Kimi、智谱 GLM）都已支持多模态输入。DeepSeek 是唯一一个仍然纯文本的头部选手。这次更新补齐了这一差距。

V4 刚刚发布不久，1M 上下文窗口功能的热度还没消退，识图模式就接踵而至。这种迭代节奏在国产大模型中属于第一梯队。

识图模式目前为灰度内测，部分用户可能还未看到入口。官方建议没有看到”识图模式”图标的用户升级 App 版本。

DeepSeek V4 此前已展示了强大的推理能力和超大规模上下文处理能力（1M tokens）。新增的视觉理解能力大概率是在原有架构基础上的视觉编码器扩展，而非从零构建的多模态模型。

这种”渐进式多模态”路线的优势：

截至 2026 年 4 月底，国产头部模型多模态能力对比：

DeepSeek V4 在补齐视觉短板后，与竞品的能力差距已基本抹平。下一步的差异化竞争将聚焦于：视觉精度、Agent 能力、以及垂直场景的优化。