Длинный контекст (Long Context) остаётся «слабым местом» языковых моделей (LLM). Увеличить окно контекста до 128K, 256K или даже 1M токенов технически несложно; сложнее заставить модель по-настоящему понимать информацию в длинных текстах и выполнять корректные логические выводы.
В этой работе GoLongRL предложена интересная стратегия: вместо наращивания числа параметров авторы используют обучение с подкреплением + разнообразные функции вознаграждения, чтобы научить модель эффективно обрабатывать длинный контекст. При этом вся реализация полностью открыта — набор данных, исходный код обучения и конвейер сборки опубликованы в открытом доступе.
Проблемная осознанность: слепые зоны существующих методов
В статье указывается на общую слабость современных RL-подходов к задачам с длинным контекстом: они сводят построение данных к «проектированию всё более сложных путей поиска информации». В результате покрытие задач становится однородным, а формулы вознаграждения не отражают реальных требований к обработке длинного контекста.
Приведём аналогию: если вы обучаете ученика читать длинные тексты, то не следует ограничиваться многократной тренировкой поиска ключевых слов — важно развивать у него способности к различным типам работы с длинными текстами: резюмированию, логическому выводу, сравнению, извлечению информации и точному локализованию фрагментов…
Два ключевых вклада
1. Построение данных, ориентированное на конкретные способности
Команда представила набор данных RLVR из 23 000 образцов, охватывающий 9 типов задач; для каждого типа определены естественные метрики оценки.
Источники данных делятся на две категории:
- Тщательно отобранные открытые образцы из проверенных корпусов;
- Синтезированные пары «вопрос–ответ», полученные из реальных исходных документов (книг, научных статей, многоходовых диалогов).
При одинаковых базовых настройках алгоритма GRPO этот набор данных сам по себе превосходит закрытый набор QwenLong-L1.5.
2. Метод TMN-Reweight — адаптивное взвешивание вознаграждений для мультизадачного обучения
Поскольку сложность и значимость различных задач различаются, GoLongRL предлагает метод перевзвешивания на основе «задача–метрика–сеть» (TMN), позволяющий модели автоматически регулировать степень внимания к каждой задаче в ходе обучения.
Результаты производительности
Цифры, приведённые в статье, впечатляют:
- Qwen3-30B-A3B показывает результаты на задачах с длинным контекстом, сопоставимые с DeepSeek-R1-0528 и Qwen3-235B-A22B-Thinking-2507;
- Соотношение параметров: 30 млрд против 235 млрд — почти в 8 раз меньше;
- Сам по себе набор данных RLVR в рамках GRPO превосходит закрытые эталонные решения.
Почему это важно
Смысл данной работы заключается в том, что она доказывает: способность работать с длинным контекстом — не просто функция размера модели. Благодаря тщательно спроектированным данным и методам обучения модели среднего масштаба могут достигать уровня передовых решений в задачах с длинным контекстом.
Ещё важнее тот факт, что проект полностью открыт — речь идёт не только о весах модели, но и о полностью воспроизводимом конвейере обучения и наборе данных, что позволяет сообществу повторять эксперименты, улучшать и расширять решение.
Ссылка на статью: arXiv:2605.19577