DeepSeek V4 識図モードがグレーテスト開始、最後の主要なギャップを解消

DeepSeek V4 識図モードがグレーテスト開始、最後の主要なギャップを解消

コア評価

中国のトップ LLM 勢の中で、最後にビジョンサポートを持たないプレイヤーがついにこのギャップを埋めた。DeepSeek V4 の画像モード展開スピードは驚くべきものだ——1M コンテキスト機能の余韻が冷めやらぬうちに、新たな機能が投入された。

記者会見もなく、PR リリースもない——これが DeepSeek のスタイル。研究者が投稿して削除し、機能が静かに上线した。

何があったか

4月30日頃、DeepSeek V4 が公式アプリに「識図モード」タブを追加。「高速モード」と「専門家モード」の並びに現れ、「画像理解機能テスト中」との表示が付いている。

これは DeepSeek がマルチモーダル領域に正式に参入したことを意味する。

実測体験:OCR ではない真の理解

記事の著者はシンプルだが重要なテストを行った:文字のない桂林象鼻山写真をアップロード。

DeepSeek V4 はランドマーク名を特定しただけでなく、形態特徴と地理位置も推論——真のシーン理解能力を持っていることを証明した。

テスト比較:

  • OCR 能力:画像内の文字認識(DeepSeek は以前からサポート)
  • 視覚理解:シーン内容の理解、意味の推論(識図モードで追加)

これは 2 つの異なる能力レベル。識図モードは後者を補完する。

なぜ重要か

1. 最後のギャップを埋める

中国トップ LLM 陣営では、競合他社(通義千問、文心一言、Kimi、智譜 GLM)はすでにマルチモーダル入力をサポートしていた。DeepSeek は唯一純粋テキストのトッププレイヤーだった。今回の更新でそのギャップが解消された。

2. 驚異的なイテレーション速度

V4 がリリースされたばかりで、1M コンテキストウィンドウの話題がまだ冷めやらぬうちに識図モードが登場。このイテレーションペースは中国 LLM の第一線に位置する。

3. グレーテスト展開

識図モードは現在グレーテスト中で、一部のユーザーはまだエントリポイントを見ていない可能性がある。公式には「識図モード」アイコンが表示されないユーザーにアプリのアップグレードを推奨している。

技術背景分析

DeepSeek V4 はすでに強力な推論能力と超大規模コンテキスト処理(1M トークン)を実証していた。新たに追加された視覚理解機能は、おそらく既存アーキテクチャ上の視覚エンコーダー拡張であり、ゼロから構築されたマルチモーダルモデルではない可能性が高い。

この「漸進的多モーダル」アプローチの利点:

  • 高速イテレーション:完全な V5 を待つ必要なし。既存アーキテクチャでビジョンを拡張可能
  • 統一されたユーザー体験:同一モデル内でテキストとビジュアルタスクをシームレスに切り替え
  • コスト効率:マルチモーダルモデルをゼロから構築するより、増分トレーニングのコストが低い

業界ランドスケープ更新

2026年4月末時点で中国トップモデルのマルチモーダル能力比較:

モデルテキストビジョンコード長文脈
DeepSeek V4✅ (ベータ)✅ (1M)
Qwen シリーズ
ERNIE 5.1
Kimi K2.6
智譜 GLM

ビジョンギャップ解消後、DeepSeek V4 は競合との能力差をほぼ埋めた。次の差別化競争は:視覚精度、エージェント能力、垂直シーンの最適化に焦点が当たる。

アクションアイテム

  • DeepSeek ユーザー:最新バージョンにアップグレードして識図モードを試す
  • 競合ユーザー:DeepSeek V4 の視覚能力ベンチマークに注目し、既存ソリューションと比較
  • 業界ウォッチャー:DeepSeek がビジュアル API アクセスを開放するかに注目——エンタープライズサービスにおける重要なシグナル