Без пресс-конференции, только статья
Подход DeepSeek остаётся неизменным: никаких маркетинговых пресс-релизов, никаких трансляций запуска — просто статья тихо появляется на arXiv, и всё AI-сообщество переходит в режим активного распространения.
«Thinking with Visual Primitives» подробно описывает полную техническую архитектуру мультимодальной большой языковой модели DeepSeek. Это не «мы прицепили энкодер зрения к модели XX» — это сквозная разработка от визуального представления до языкового рассуждения.
Разбор архитектуры
Основа: DeepSeek-V4-Flash
Модель построена на DeepSeek-V4-Flash, архитектуре языка со смесью экспертов (MoE):
- Общее количество параметров: 284B
- Активные параметры: 13B
- Эффективность вывода: Активируется только ~4,6% от общего числа параметров
Это означает, что при сохранении возможностей большой модели затраты на вывод поддерживаются на разумном уровне.
Энкодер зрения: DeepSeek-ViT
Здесь статья действительно сияет. Вместо использования готовых CLIP или SigLIP, DeepSeek разработал собственный DeepSeek-ViT:
- Стратегия патчей: стандартный размер патча 14×14, согласованный с ViT-Large
- Пространственное сжатие: слой пространственного сжатия 3×3 после выхода энкодера зрения, сокращающий длину последовательности до 1/9
- Интеграция: сжатые визуальные токены напрямую поступают во входную последовательность LLM
Шаг пространственного сжатия является ключевым. Несжатый визуальный вход высокого разрешения генерировал бы тысячи токенов, создавая огромную нагрузку на окна контекста и вычисление внимания.
Основная идея: «Думать с визуальными примитивами»
«Визуальные примитивы» в названии — не трюк. Основная философия заключается в том, чтобы модель «думала» на уровне визуального представления.
- Иерархическое визуальное представление: модель понимает визуальную информацию на разных уровнях
- Кросс-модальное выравнивание: визуальные примитивы и языковые концепции выровнены в пространстве представлений
- Интеграция цепи рассуждений: визуальная информация участвует в процессе рассуждений модели
Почему это важно
DeepSeek сделал несколько выборов, отличающихся от мейнстримовых подходов:
Без зависимости от внешних моделей зрения. Большинство мультимодальных LLM напрямую используют предобученные энкодеры CLIP/SigLIP.
MoE + мультимодальность — редкость. Большинство моделей с открытым исходным кодом используют плотные архитектуры.
Прагматичное пространственное сжатие. Сжатие 3×3 выглядит простым, но чрезвычайно эффективно на практике.
Итог
DeepSeek ответил на ключевой вопрос этой статьёй: должны ли мультимодальные большие модели следовать пути плотной архитектуры? Очевидно, нет.
Для исследователей и разработчиков, сосредоточенных на мультимодальных моделях с открытым исходным кодом, эта статья заслуживает внимательного прочтения.