C
ChaoBro

GoLongRL: Открытая схема обучения с подкреплением для моделей с длинным контекстом — модель на 30 млрд параметров сопоставима по качеству с DeepSeek-R1-0528

GoLongRL: Открытая схема обучения с подкреплением для моделей с длинным контекстом — модель на 30 млрд параметров сопоставима по качеству с DeepSeek-R1-0528

Длинный контекст (Long Context) остаётся «слабым местом» языковых моделей (LLM). Увеличить окно контекста до 128K, 256K или даже 1M токенов технически несложно; сложнее заставить модель по-настоящему понимать информацию в длинных текстах и выполнять корректные логические выводы.

В этой работе GoLongRL предложена интересная стратегия: вместо наращивания числа параметров авторы используют обучение с подкреплением + разнообразные функции вознаграждения, чтобы научить модель эффективно обрабатывать длинный контекст. При этом вся реализация полностью открыта — набор данных, исходный код обучения и конвейер сборки опубликованы в открытом доступе.

Проблемная осознанность: слепые зоны существующих методов

В статье указывается на общую слабость современных RL-подходов к задачам с длинным контекстом: они сводят построение данных к «проектированию всё более сложных путей поиска информации». В результате покрытие задач становится однородным, а формулы вознаграждения не отражают реальных требований к обработке длинного контекста.

Приведём аналогию: если вы обучаете ученика читать длинные тексты, то не следует ограничиваться многократной тренировкой поиска ключевых слов — важно развивать у него способности к различным типам работы с длинными текстами: резюмированию, логическому выводу, сравнению, извлечению информации и точному локализованию фрагментов…

Два ключевых вклада

1. Построение данных, ориентированное на конкретные способности

Команда представила набор данных RLVR из 23 000 образцов, охватывающий 9 типов задач; для каждого типа определены естественные метрики оценки.

Источники данных делятся на две категории:

  • Тщательно отобранные открытые образцы из проверенных корпусов;
  • Синтезированные пары «вопрос–ответ», полученные из реальных исходных документов (книг, научных статей, многоходовых диалогов).

При одинаковых базовых настройках алгоритма GRPO этот набор данных сам по себе превосходит закрытый набор QwenLong-L1.5.

2. Метод TMN-Reweight — адаптивное взвешивание вознаграждений для мультизадачного обучения

Поскольку сложность и значимость различных задач различаются, GoLongRL предлагает метод перевзвешивания на основе «задача–метрика–сеть» (TMN), позволяющий модели автоматически регулировать степень внимания к каждой задаче в ходе обучения.

Результаты производительности

Цифры, приведённые в статье, впечатляют:

  • Qwen3-30B-A3B показывает результаты на задачах с длинным контекстом, сопоставимые с DeepSeek-R1-0528 и Qwen3-235B-A22B-Thinking-2507;
  • Соотношение параметров: 30 млрд против 235 млрд — почти в 8 раз меньше;
  • Сам по себе набор данных RLVR в рамках GRPO превосходит закрытые эталонные решения.

Почему это важно

Смысл данной работы заключается в том, что она доказывает: способность работать с длинным контекстом — не просто функция размера модели. Благодаря тщательно спроектированным данным и методам обучения модели среднего масштаба могут достигать уровня передовых решений в задачах с длинным контекстом.

Ещё важнее тот факт, что проект полностью открыт — речь идёт не только о весах модели, но и о полностью воспроизводимом конвейере обучения и наборе данных, что позволяет сообществу повторять эксперименты, улучшать и расширять решение.

Ссылка на статью: arXiv:2605.19577