コア評価
中国のトップ LLM 勢の中で、最後にビジョンサポートを持たないプレイヤーがついにこのギャップを埋めた。DeepSeek V4 の画像モード展開スピードは驚くべきものだ——1M コンテキスト機能の余韻が冷めやらぬうちに、新たな機能が投入された。
記者会見もなく、PR リリースもない——これが DeepSeek のスタイル。研究者が投稿して削除し、機能が静かに上线した。
何があったか
4月30日頃、DeepSeek V4 が公式アプリに「識図モード」タブを追加。「高速モード」と「専門家モード」の並びに現れ、「画像理解機能テスト中」との表示が付いている。
これは DeepSeek がマルチモーダル領域に正式に参入したことを意味する。
実測体験:OCR ではない真の理解
記事の著者はシンプルだが重要なテストを行った:文字のない桂林象鼻山写真をアップロード。
DeepSeek V4 はランドマーク名を特定しただけでなく、形態特徴と地理位置も推論——真のシーン理解能力を持っていることを証明した。
テスト比較:
- OCR 能力:画像内の文字認識(DeepSeek は以前からサポート)
- 視覚理解:シーン内容の理解、意味の推論(識図モードで追加)
これは 2 つの異なる能力レベル。識図モードは後者を補完する。
なぜ重要か
1. 最後のギャップを埋める
中国トップ LLM 陣営では、競合他社(通義千問、文心一言、Kimi、智譜 GLM)はすでにマルチモーダル入力をサポートしていた。DeepSeek は唯一純粋テキストのトッププレイヤーだった。今回の更新でそのギャップが解消された。
2. 驚異的なイテレーション速度
V4 がリリースされたばかりで、1M コンテキストウィンドウの話題がまだ冷めやらぬうちに識図モードが登場。このイテレーションペースは中国 LLM の第一線に位置する。
3. グレーテスト展開
識図モードは現在グレーテスト中で、一部のユーザーはまだエントリポイントを見ていない可能性がある。公式には「識図モード」アイコンが表示されないユーザーにアプリのアップグレードを推奨している。
技術背景分析
DeepSeek V4 はすでに強力な推論能力と超大規模コンテキスト処理(1M トークン)を実証していた。新たに追加された視覚理解機能は、おそらく既存アーキテクチャ上の視覚エンコーダー拡張であり、ゼロから構築されたマルチモーダルモデルではない可能性が高い。
この「漸進的多モーダル」アプローチの利点:
- 高速イテレーション:完全な V5 を待つ必要なし。既存アーキテクチャでビジョンを拡張可能
- 統一されたユーザー体験:同一モデル内でテキストとビジュアルタスクをシームレスに切り替え
- コスト効率:マルチモーダルモデルをゼロから構築するより、増分トレーニングのコストが低い
業界ランドスケープ更新
2026年4月末時点で中国トップモデルのマルチモーダル能力比較:
| モデル | テキスト | ビジョン | コード | 長文脈 |
|---|---|---|---|---|
| DeepSeek V4 | ✅ | ✅ (ベータ) | ✅ | ✅ (1M) |
| Qwen シリーズ | ✅ | ✅ | ✅ | ✅ |
| ERNIE 5.1 | ✅ | ✅ | ✅ | ✅ |
| Kimi K2.6 | ✅ | ✅ | ✅ | ✅ |
| 智譜 GLM | ✅ | ✅ | ✅ | ✅ |
ビジョンギャップ解消後、DeepSeek V4 は競合との能力差をほぼ埋めた。次の差別化競争は:視覚精度、エージェント能力、垂直シーンの最適化に焦点が当たる。
アクションアイテム
- DeepSeek ユーザー:最新バージョンにアップグレードして識図モードを試す
- 競合ユーザー:DeepSeek V4 の視覚能力ベンチマークに注目し、既存ソリューションと比較
- 業界ウォッチャー:DeepSeek がビジュアル API アクセスを開放するかに注目——エンタープライズサービスにおける重要なシグナル