DeepSeek публикует мультимодальную статью «Thinking with Visual Primitives»: 284B MoE и собственный энкодер зрения

Без пресс-конференции, только статья

Подход DeepSeek остаётся неизменным: никаких маркетинговых пресс-релизов, никаких трансляций запуска — просто статья тихо появляется на arXiv, и всё AI-сообщество переходит в режим активного распространения.

«Thinking with Visual Primitives» подробно описывает полную техническую архитектуру мультимодальной большой языковой модели DeepSeek. Это не «мы прицепили энкодер зрения к модели XX» — это сквозная разработка от визуального представления до языкового рассуждения.

Разбор архитектуры

Основа: DeepSeek-V4-Flash

Модель построена на DeepSeek-V4-Flash, архитектуре языка со смесью экспертов (MoE):

Общее количество параметров: 284B
Активные параметры: 13B
Эффективность вывода: Активируется только ~4,6% от общего числа параметров

Это означает, что при сохранении возможностей большой модели затраты на вывод поддерживаются на разумном уровне.

Энкодер зрения: DeepSeek-ViT

Здесь статья действительно сияет. Вместо использования готовых CLIP или SigLIP, DeepSeek разработал собственный DeepSeek-ViT:

Стратегия патчей: стандартный размер патча 14×14, согласованный с ViT-Large
Пространственное сжатие: слой пространственного сжатия 3×3 после выхода энкодера зрения, сокращающий длину последовательности до 1/9
Интеграция: сжатые визуальные токены напрямую поступают во входную последовательность LLM

Шаг пространственного сжатия является ключевым. Несжатый визуальный вход высокого разрешения генерировал бы тысячи токенов, создавая огромную нагрузку на окна контекста и вычисление внимания.

Основная идея: «Думать с визуальными примитивами»

«Визуальные примитивы» в названии — не трюк. Основная философия заключается в том, чтобы модель «думала» на уровне визуального представления.

Иерархическое визуальное представление: модель понимает визуальную информацию на разных уровнях
Кросс-модальное выравнивание: визуальные примитивы и языковые концепции выровнены в пространстве представлений
Интеграция цепи рассуждений: визуальная информация участвует в процессе рассуждений модели

Почему это важно

DeepSeek сделал несколько выборов, отличающихся от мейнстримовых подходов:

Без зависимости от внешних моделей зрения. Большинство мультимодальных LLM напрямую используют предобученные энкодеры CLIP/SigLIP.

MoE + мультимодальность — редкость. Большинство моделей с открытым исходным кодом используют плотные архитектуры.

Прагматичное пространственное сжатие. Сжатие 3×3 выглядит простым, но чрезвычайно эффективно на практике.

Итог

DeepSeek ответил на ключевой вопрос этой статьёй: должны ли мультимодальные большие модели следовать пути плотной архитектуры? Очевидно, нет.

Для исследователей и разработчиков, сосредоточенных на мультимодальных моделях с открытым исходным кодом, эта статья заслуживает внимательного прочтения.