DeepSeek V4 запускает режим распознавания изображений в бета-тесте, закрывая последний крупный пробел

DeepSeek V4 запускает режим распознавания изображений в бета-тесте, закрывая последний крупный пробел

Ключевая оценка

Среди ведущих китайских LLM последний игрок без поддержки зрения наконец заполнил этот пробел. Скорость запуска режима изображений DeepSeek V4 удивительна — функция контекста 1M ещё не успела остыть, как появилась новая возможность.

Без пресс-конференций, без PR-релизов — классический стиль DeepSeek: исследователь опубликовал пост, удалил его, и функция тихо заработала.

Что произошло

Около 30 апреля DeepSeek V4 добавил вкладку «Режим распознавания изображений» (识图模式) в официальном приложении, появившуюся рядом с «Быстрым режимом» и «Режимом эксперта», с пометкой «Функция понимания изображений на внутреннем тестировании».

Это знаменует официальный вход DeepSeek в мультимодальную область.

Реальный тест: настоящее понимание, не просто OCR

Автор статьи провёл простой, но критический тест: загрузил фотографию холма Слоновий Хвост в Гуйлине без текста на изображении.

DeepSeek V4 не только определил название достопримечательности, но и описал морфологические характеристики и географическое положение — доказав наличие подлинного понимания сцены, а не просто извлечения текста через OCR.

Сравнение тестов:

  • Способность OCR: распознавание текста в изображениях (DeepSeek уже поддерживал)
  • Визуальное понимание: понимание содержания сцены, рассуждение о значении (новое с режимом изображений)

Это два разных уровня возможностей. Режим изображений заполняет второй пробел.

Почему это важно

1. Закрытие последнего пробела

Среди ведущих китайских LLM практически все конкуренты (Tongyi Qianwen, ERNIE, Kimi, Zhipu GLM) уже поддерживали мультимодальный ввод. DeepSeek был единственным оставшимся чисто текстовым игроком высшего уровня. Это обновление закрывает этот пробел.

2. Замечательная скорость итераций

V4 только что был выпущен, и интерес к окну контекста 1M ещё не утих, как появился режим изображений. Этот темп итераций ставит DeepSeek в первый ряд китайских LLM.

3. Серый запуск

Режим изображений в настоящее время находится на внутреннем тестировании — некоторые пользователи могут ещё не видеть точку входа. Официальная рекомендация: обновить версию приложения.

Технический анализ

DeepSeek V4 уже продемонстрировал мощные способности рассуждения и обработку сверхконтекста (1M токенов). Новая возможность визуального понимания, вероятно, является расширением визуального энкодера на существующей архитектуре, а не мультимодальной моделью, созданной с нуля.

Преимущества «инкрементального мультимодального» подхода:

  • Быстрые итерации: не нужно ждать полного выпуска V5; существующая архитектура расширяет зрение
  • Единый пользовательский опыт: бесшовное переключение между текстовыми и визуальными задачами в одной модели
  • Экономичность: стоимость инкрементального обучения ниже, чем обучение мультимодальной модели с нуля

Обновление отрасли

На конец апреля 2026 года сравнение мультимодальных возможностей ведущих китайских моделей:

МодельТекстЗрениеКодДлинный контекст
DeepSeek V4✅ (Бета)✅ (1M)
Qwen
ERNIE 5.1
Kimi K2.6
Zhipu GLM

После закрытия пробела зрения DeepSeek V4 практически сравнялся с конкурентами. Следующий этап дифференциации сосредоточится на: точности зрения, способностях Agent и оптимизации вертикальных сценариев.

Рекомендации

  • Пользователи DeepSeek: обновите приложение до последней версии и попробуйте режим изображений
  • Пользователи конкурентов: следите за бенчмарками зрения DeepSeek V4 и сравнивайте с существующими решениями
  • Наблюдатели отрасли: обратите внимание, откроет ли DeepSeek визуальный API — ключевой сигнал для корпоративных сервисов