DeepSeek V4 識図モードがグレーテスト開始、最後の主要なギャップを解消

コア評価

中国のトップ LLM 勢の中で、最後にビジョンサポートを持たないプレイヤーがついにこのギャップを埋めた。DeepSeek V4 の画像モード展開スピードは驚くべきものだ——1M コンテキスト機能の余韻が冷めやらぬうちに、新たな機能が投入された。

記者会見もなく、PR リリースもない——これが DeepSeek のスタイル。研究者が投稿して削除し、機能が静かに上线した。

4月30日頃、DeepSeek V4 が公式アプリに「識図モード」タブを追加。「高速モード」と「専門家モード」の並びに現れ、「画像理解機能テスト中」との表示が付いている。

これは DeepSeek がマルチモーダル領域に正式に参入したことを意味する。

記事の著者はシンプルだが重要なテストを行った：文字のない桂林象鼻山写真をアップロード。

DeepSeek V4 はランドマーク名を特定しただけでなく、形態特徴と地理位置も推論——真のシーン理解能力を持っていることを証明した。

テスト比較：

これは 2 つの異なる能力レベル。識図モードは後者を補完する。

中国トップ LLM 陣営では、競合他社（通義千問、文心一言、Kimi、智譜 GLM）はすでにマルチモーダル入力をサポートしていた。DeepSeek は唯一純粋テキストのトッププレイヤーだった。今回の更新でそのギャップが解消された。

V4 がリリースされたばかりで、1M コンテキストウィンドウの話題がまだ冷めやらぬうちに識図モードが登場。このイテレーションペースは中国 LLM の第一線に位置する。

識図モードは現在グレーテスト中で、一部のユーザーはまだエントリポイントを見ていない可能性がある。公式には「識図モード」アイコンが表示されないユーザーにアプリのアップグレードを推奨している。

DeepSeek V4 はすでに強力な推論能力と超大規模コンテキスト処理（1M トークン）を実証していた。新たに追加された視覚理解機能は、おそらく既存アーキテクチャ上の視覚エンコーダー拡張であり、ゼロから構築されたマルチモーダルモデルではない可能性が高い。

この「漸進的多モーダル」アプローチの利点：

2026年4月末時点で中国トップモデルのマルチモーダル能力比較：

ビジョンギャップ解消後、DeepSeek V4 は競合との能力差をほぼ埋めた。次の差別化競争は：視覚精度、エージェント能力、垂直シーンの最適化に焦点が当たる。