核心判断
国内头部大模型中,最后一个不支持看图的选手终于补上了短板。DeepSeek V4 识图模式的上线速度令人意外——1M 上下文功能刚发布没几天,转头又甩出新功能。
没有发布会,没有通稿,典型的 DeepSeek 风格:一个研究员发了个帖子、删掉,功能就悄悄上线了。
发生了什么
4 月 30 日前后,DeepSeek V4 在官方 App 中新增了”识图模式”标签,与”快速模式”和”专家模式”并列出现在对话框上方,提示语显示”图片理解功能内测中”。
这标志着 DeepSeek 从纯文本模型正式迈入多模态领域。
实测体验:真看懂了,不是 OCR
文章作者进行了一项简单但关键的测试:上传了一张没有任何文字的桂林象鼻山照片。
DeepSeek V4 不仅识别出了地标名称,还给出了形态特征推理和地理位置信息——这证明它具备了真正的场景理解能力,而不仅仅是 OCR 文字提取。
测试对比:
- OCR 能力:识别图片中的文字(DeepSeek 之前已支持)
- 视觉理解:理解画面内容、推理场景含义(识图模式新增能力)
这是两个不同层级的能力。识图模式补齐的是后者。
为什么重要
1. 补齐最后一块短板
在国内头部大模型阵营中,此前几乎所有竞品(通义千问、文心一言、Kimi、智谱 GLM)都已支持多模态输入。DeepSeek 是唯一一个仍然纯文本的头部选手。这次更新补齐了这一差距。
2. 迭代速度惊人
V4 刚刚发布不久,1M 上下文窗口功能的热度还没消退,识图模式就接踵而至。这种迭代节奏在国产大模型中属于第一梯队。
3. 灰度内测模式
识图模式目前为灰度内测,部分用户可能还未看到入口。官方建议没有看到”识图模式”图标的用户升级 App 版本。
技术背景分析
DeepSeek V4 此前已展示了强大的推理能力和超大规模上下文处理能力(1M tokens)。新增的视觉理解能力大概率是在原有架构基础上的视觉编码器扩展,而非从零构建的多模态模型。
这种”渐进式多模态”路线的优势:
- 快速迭代:不需要等完整的 V5 版本,现有架构就能扩展视觉能力
- 用户体验统一:在同一个模型中无缝切换文本和视觉任务
- 成本可控:相比从头训练多模态模型,增量训练成本更低
行业格局更新
截至 2026 年 4 月底,国产头部模型多模态能力对比:
| 模型 | 文本 | 视觉 | 代码 | 长上下文 |
|---|---|---|---|---|
| DeepSeek V4 | ✅ | ✅ (灰度) | ✅ | ✅ (1M) |
| Qwen 系列 | ✅ | ✅ | ✅ | ✅ |
| 文心 5.1 | ✅ | ✅ | ✅ | ✅ |
| Kimi K2.6 | ✅ | ✅ | ✅ | ✅ |
| 智谱 GLM | ✅ | ✅ | ✅ | ✅ |
DeepSeek V4 在补齐视觉短板后,与竞品的能力差距已基本抹平。下一步的差异化竞争将聚焦于:视觉精度、Agent 能力、以及垂直场景的优化。
行动建议
- DeepSeek 用户:升级 App 到最新版本,尝试识图模式
- 竞品用户:关注 DeepSeek V4 视觉能力的实测表现,对比现有方案
- 行业观察者:注意 DeepSeek 是否会进一步开放 API 的视觉接口,这将是企业服务的关键信号