C
ChaoBro

RTPurbo: Полное внимание наносит ответ — преобразование полно-внимательных моделей в разреженные за сотни шагов

RTPurbo: Полное внимание наносит ответ — преобразование полно-внимательных моделей в разреженные за сотни шагов

Бутылочное горлышко инференса длинного контекста полностью живёт в механизме внимания. KV-кэш растёт линейно с контекстом, вычисление внимания — квадратично. Запустите prefill на входе в миллион токенов — и вентиляторы GPU взлетят.

Существующие решения — это либо нативное разреженное обучение (тренировать разреженную модель с нуля, крайне затратно), либо эвристическое исключение токенов (выбрасывать токены при инференсе, точность — лотерея). RTPurbo (arXiv:2605.16928, Yanke Zhou и др., 16 мая 2026) говорит: ни то, ни другое не нужно.

Три наблюдения

Во-первых, лишь небольшое подмножество голов внимания действительно нуждается в полной обработке длинного контекста. Большинство голов просто неэффективны при дальнем поиске.

Во-вторых, дальний поиск управляется преимущественно низкоразмерным подпространством. 16-мерного токенового индексатора достаточно для эффективного поиска.

В-третьих, бюджет полезных токенов сильно зависит от запроса. Поэтому динамический top-p лучше фиксированного top-k.

Результаты

Почти безпотерная точность. 9.36x ускорение prefill при 1M контексте, 2.01x ускорение decode.

Основные источники:

  • arXiv:2605.16928, Full Attention Strikes Back: Transferring Full Attention into Sparse within Hundred Training Steps, Yanke Zhou et al., 2026-05-16