C
ChaoBro

DeepSeek публикует мультимодальную статью «Thinking with Visual Primitives»: 284B MoE и собственный энкодер зрения

DeepSeek публикует мультимодальную статью «Thinking with Visual Primitives»: 284B MoE и собственный энкодер зрения

Без пресс-конференции, только статья

Подход DeepSeek остаётся неизменным: никаких маркетинговых пресс-релизов, никаких трансляций запуска — просто статья тихо появляется на arXiv, и всё AI-сообщество переходит в режим активного распространения.

«Thinking with Visual Primitives» подробно описывает полную техническую архитектуру мультимодальной большой языковой модели DeepSeek. Это не «мы прицепили энкодер зрения к модели XX» — это сквозная разработка от визуального представления до языкового рассуждения.

Разбор архитектуры

Основа: DeepSeek-V4-Flash

Модель построена на DeepSeek-V4-Flash, архитектуре языка со смесью экспертов (MoE):

  • Общее количество параметров: 284B
  • Активные параметры: 13B
  • Эффективность вывода: Активируется только ~4,6% от общего числа параметров

Это означает, что при сохранении возможностей большой модели затраты на вывод поддерживаются на разумном уровне.

Энкодер зрения: DeepSeek-ViT

Здесь статья действительно сияет. Вместо использования готовых CLIP или SigLIP, DeepSeek разработал собственный DeepSeek-ViT:

  • Стратегия патчей: стандартный размер патча 14×14, согласованный с ViT-Large
  • Пространственное сжатие: слой пространственного сжатия 3×3 после выхода энкодера зрения, сокращающий длину последовательности до 1/9
  • Интеграция: сжатые визуальные токены напрямую поступают во входную последовательность LLM

Шаг пространственного сжатия является ключевым. Несжатый визуальный вход высокого разрешения генерировал бы тысячи токенов, создавая огромную нагрузку на окна контекста и вычисление внимания.

Основная идея: «Думать с визуальными примитивами»

«Визуальные примитивы» в названии — не трюк. Основная философия заключается в том, чтобы модель «думала» на уровне визуального представления.

  1. Иерархическое визуальное представление: модель понимает визуальную информацию на разных уровнях
  2. Кросс-модальное выравнивание: визуальные примитивы и языковые концепции выровнены в пространстве представлений
  3. Интеграция цепи рассуждений: визуальная информация участвует в процессе рассуждений модели

Почему это важно

DeepSeek сделал несколько выборов, отличающихся от мейнстримовых подходов:

Без зависимости от внешних моделей зрения. Большинство мультимодальных LLM напрямую используют предобученные энкодеры CLIP/SigLIP.

MoE + мультимодальность — редкость. Большинство моделей с открытым исходным кодом используют плотные архитектуры.

Прагматичное пространственное сжатие. Сжатие 3×3 выглядит простым, но чрезвычайно эффективно на практике.

Итог

DeepSeek ответил на ключевой вопрос этой статьёй: должны ли мультимодальные большие модели следовать пути плотной архитектуры? Очевидно, нет.

Для исследователей и разработчиков, сосредоточенных на мультимодальных моделях с открытым исходным кодом, эта статья заслуживает внимательного прочтения.