DeepSeek V4 запускает режим распознавания изображений в бета-тесте, закрывая последний крупный пробел

Ключевая оценка

Среди ведущих китайских LLM последний игрок без поддержки зрения наконец заполнил этот пробел. Скорость запуска режима изображений DeepSeek V4 удивительна — функция контекста 1M ещё не успела остыть, как появилась новая возможность.

Без пресс-конференций, без PR-релизов — классический стиль DeepSeek: исследователь опубликовал пост, удалил его, и функция тихо заработала.

Что произошло

Около 30 апреля DeepSeek V4 добавил вкладку «Режим распознавания изображений» (识图模式) в официальном приложении, появившуюся рядом с «Быстрым режимом» и «Режимом эксперта», с пометкой «Функция понимания изображений на внутреннем тестировании».

Это знаменует официальный вход DeepSeek в мультимодальную область.

Реальный тест: настоящее понимание, не просто OCR

Автор статьи провёл простой, но критический тест: загрузил фотографию холма Слоновий Хвост в Гуйлине без текста на изображении.

DeepSeek V4 не только определил название достопримечательности, но и описал морфологические характеристики и географическое положение — доказав наличие подлинного понимания сцены, а не просто извлечения текста через OCR.

Сравнение тестов:

Способность OCR: распознавание текста в изображениях (DeepSeek уже поддерживал)
Визуальное понимание: понимание содержания сцены, рассуждение о значении (новое с режимом изображений)

Это два разных уровня возможностей. Режим изображений заполняет второй пробел.

Почему это важно

1. Закрытие последнего пробела

Среди ведущих китайских LLM практически все конкуренты (Tongyi Qianwen, ERNIE, Kimi, Zhipu GLM) уже поддерживали мультимодальный ввод. DeepSeek был единственным оставшимся чисто текстовым игроком высшего уровня. Это обновление закрывает этот пробел.

2. Замечательная скорость итераций

V4 только что был выпущен, и интерес к окну контекста 1M ещё не утих, как появился режим изображений. Этот темп итераций ставит DeepSeek в первый ряд китайских LLM.

3. Серый запуск

Режим изображений в настоящее время находится на внутреннем тестировании — некоторые пользователи могут ещё не видеть точку входа. Официальная рекомендация: обновить версию приложения.

Технический анализ

DeepSeek V4 уже продемонстрировал мощные способности рассуждения и обработку сверхконтекста (1M токенов). Новая возможность визуального понимания, вероятно, является расширением визуального энкодера на существующей архитектуре, а не мультимодальной моделью, созданной с нуля.

Преимущества «инкрементального мультимодального» подхода:

Быстрые итерации: не нужно ждать полного выпуска V5; существующая архитектура расширяет зрение
Единый пользовательский опыт: бесшовное переключение между текстовыми и визуальными задачами в одной модели
Экономичность: стоимость инкрементального обучения ниже, чем обучение мультимодальной модели с нуля

Обновление отрасли

На конец апреля 2026 года сравнение мультимодальных возможностей ведущих китайских моделей:

Модель	Текст	Зрение	Код	Длинный контекст
DeepSeek V4	✅	✅ (Бета)	✅	✅ (1M)
Qwen	✅	✅	✅	✅
ERNIE 5.1	✅	✅	✅	✅
Kimi K2.6	✅	✅	✅	✅
Zhipu GLM	✅	✅	✅	✅

После закрытия пробела зрения DeepSeek V4 практически сравнялся с конкурентами. Следующий этап дифференциации сосредоточится на: точности зрения, способностях Agent и оптимизации вертикальных сценариев.

Ключевая оценка

Что произошло

Реальный тест: настоящее понимание, не просто OCR

Почему это важно

1. Закрытие последнего пробела

2. Замечательная скорость итераций

3. Серый запуск

Технический анализ

Обновление отрасли

Рекомендации

Похожие материалы

OpenAI Workspace Agents запуск: от личного чата к командной автоматизации, сдвиг парадигмы ChatGPT

DeepSeek V4 Flash обзор: Вызов инструментов значительно улучшен, многошаговые рабочие процессы одним промптом

Baidu ERNIE 5.1 Preview дебютировал в Arena на #13, возглавил категорию права