SubQ привлекла $29 млн на ставку в 12M контекст, начинается война разреженного внимания

Главное в двух словах

В сфере AI-инфраструктуры появилась четкая развилка: когда речь заходит о сверхдлинном контексте, индустрия раскалывается на два радикально разных технических подхода.

Подход первый (вертикальная интеграция): SubQ привлекла $29 млн на обучение модели с нуля, поддерживающей контекст в 12 миллионов токенов.

Высокий риск, высокая отдача — в случае успеха и производительность, и эффективность контролируются
Но требуются огромные вычислительные ресурсы и данные, и обслуживать можно только собственную модель

Подход второй (горизонтальное встраивание): MSA (Multi-Scale Attention) от evermind добавляет слой памяти поверх мейнстримных моделей.

Работает с любой моделью, переобучение не требуется
Но потолок производительности ограничен совместимостью механизма внимания хост-модели

Сообщество сформулировало точно: «Двадцать девять миллионов долларов на 12M контекст — это доказывает, что вся индустрия теперь верит: разреженное внимание — это лекарство от плотного внимания.»

Почему разреженное внимание?

Чтобы понять эту дискуссию, начнём с самой проблемы:

Традиционный механизм плотного внимания (dense attention) в Transformer сталкивается с двумя жёсткими ограничениями в сценариях длинного контекста:

Вычислительная сложность O(n²) — удвоение контекста означает учетверение вычислений
Взрыв памяти KV Cache — KV Cache на 12 млн токенов требует сотен гигабайт видеопамяти

Плотное внимание прекрасно работает до 128K, но за миллион токенов и стоимость, и задержка становятся неприемлемыми.

Ключевая идея разреженного внимания: не каждый токен важен для каждого другого токена. Избирательно вычисляя внимание, можно сохранить точность, снизив сложность практически до линейной.

Два подхода в деталях

SubQ: переобучить модель

SubQ выбрала самый агрессивный путь — обучить модель с нуля, которая нативно поддерживает контекст в 12 миллионов токенов.

Преимущество: механизм внимания можно оптимизировать end-to-end для длинного контекста, обратная совместимость не нужна
Недостаток: $29 млн в мире обучения моделей — это немного, маржа для ошибки крайне узкая
Риск: если в процессе обучения обнаружится проблема с архитектурой, невозвратные затраты будут огромными

Что примечательно, API SubQ глубоко интегрирован с её продуктом — это подход «модель как сервис».

evermind MSA: добавить память к мейнстримным моделям

Multi-Scale Attention от evermind выбрала другой путь — не трогать веса модели, а подключить внешний слой памяти на этапе инференса.

Преимущество: совместимо с Claude, GPT, Gemini и другими мейнстримными моделями — клиентам не нужно менять провайдера модели
Недостаток: потолок производительности ограничен хост-моделью; по сути это решение-«заплатка»
Риск: если мейнстримные модели сами добавят возможности длинного контекста, дифференциация MSA будет размыта

Сигналы от индустрии

Этот раунд финансирования раскрывает несколько примечательных сигналов:

Разреженное внимание переходит из академической концепции в коммерческое русло — инвесторы готовы платить за «инновации в механизме внимания», а не просто за «более крупные модели»
12M контекст становится новым бенчмарком — до этого 1 миллион токенов (Claude) и 2 миллиона (Gemini) были публичным потолком; 12 миллионов — это скачок на порядок
Ни один из подходов пока не победил — как в истории CNN против Transformer: раннее параллельное развитие нескольких направлений это здорово

Что это значит для разработчиков

Сценарий использования	Рекомендуемый подход	Причина
Нужна экстремальная производительность длинного контекста	SubQ (если обучение удастся)	Нативное разреженное внимание, end-to-end оптимизация
Хочу существующие модели плюс длинную память	evermind MSA	Переключение модели не требуется, подключай и работай
Чувствителен к стоимости	Подождать	Оба подхода на ранней стадии, ценообразование пока непрозрачно

Вывод

$29 млн — не гигантская сумма, но она знаменует сдвиг: конкурентная ось AI-инфраструктуры смещается вниз — от «у чьей модели больше параметров» к «у кого механизм внимания умнее».

Является ли разреженное внимание поистине окончательным лекарством от плотного внимания? Ответа пока нет, но этот раунд финансирования как минимум доказывает: нашлись те, кто готов ставить на это реальные деньги.

Главное в двух словах

Почему разреженное внимание?

Два подхода в деталях

SubQ: переобучить модель

evermind MSA: добавить память к мейнстримным моделям

Сигналы от индустрии

Что это значит для разработчиков

Вывод

Похожие материалы

SAP приобретает материнскую компанию TabPFN PriorLabs за 1 миллиард евро: настала эпоха фундаментальных моделей для табличных данных

Google обгоняет NVIDIA как самая дорогая компания мира: «AI-корона» переходит от производителя чипов к платформе

Kimi привлекла $2 млрд в новом раунде, оценка превысила $20 млрд: Meituan DragonBall лидирует с единовременным вложением свыше $200 млн