Бутылочное горлышко инференса длинного контекста полностью живёт в механизме внимания. KV-кэш растёт линейно с контекстом, вычисление внимания — квадратично. Запустите prefill на входе в миллион токенов — и вентиляторы GPU взлетят.
Существующие решения — это либо нативное разреженное обучение (тренировать разреженную модель с нуля, крайне затратно), либо эвристическое исключение токенов (выбрасывать токены при инференсе, точность — лотерея). RTPurbo (arXiv:2605.16928, Yanke Zhou и др., 16 мая 2026) говорит: ни то, ни другое не нужно.
Три наблюдения
Во-первых, лишь небольшое подмножество голов внимания действительно нуждается в полной обработке длинного контекста. Большинство голов просто неэффективны при дальнем поиске.
Во-вторых, дальний поиск управляется преимущественно низкоразмерным подпространством. 16-мерного токенового индексатора достаточно для эффективного поиска.
В-третьих, бюджет полезных токенов сильно зависит от запроса. Поэтому динамический top-p лучше фиксированного top-k.
Результаты
Почти безпотерная точность. 9.36x ускорение prefill при 1M контексте, 2.01x ускорение decode.
Основные источники:
- arXiv:2605.16928, Full Attention Strikes Back: Transferring Full Attention into Sparse within Hundred Training Steps, Yanke Zhou et al., 2026-05-16