长上下文(Long Context)一直是 LLM 的软肋。把上下文窗口拉到 128K、256K 甚至 1M 不难,难的是让模型真正理解长文本中的信息并做出正确推理。
GoLongRL 这篇论文走了一条有意思的路:不是堆参数,而是用强化学习 + 多样化奖励来教模型处理长上下文。而且它是完全开源的——数据集、训练代码、构建管线全部公开。
问题意识:现有方法的盲区
论文指出现有长上下文 RL 方法的一个共性缺陷:把数据构建等同于"设计越来越复杂的检索路径"。结果就是任务覆盖同质化,奖励公式无法反映真实的长上下文需求。
打个比方:你教一个学生读长文章,不是让他反复练习找关键词,而是要让他掌握不同类型的长文本处理能力——总结、推理、对比、提取、定位……
两个核心贡献
1. 能力导向的数据构建
团队发布了一个 23K 样本的 RLVR 数据集,覆盖 9 种任务类型,每种任务都配有自然的评估指标。
数据来源分两部分:
- 从成熟语料库中精选的开放样本
- 从真实源文档(书籍、学术论文、多轮对话)合成的 QA 对
在相同的 vanilla GRPO 设置下,仅靠这个数据集就超越了闭源的 QwenLong-L1.5 数据集。
2. TMN-Reweight 多任务奖励加权
不同任务的难度和重要性不同,GoLongRL 提出了一种任务-度量-网络(TMN)重加权方法,让模型在训练过程中自动调整对不同任务的关注程度。
性能表现
论文给出的数字相当亮眼:
- Qwen3-30B-A3B 在长上下文任务上的表现,可比肩 DeepSeek-R1-0528 和 Qwen3-235B-A22B-Thinking-2507
- 30B 对 235B,参数差了将近 8 倍
- 仅数据集本身就在 GRPO 下超越了闭源基准
为什么值得关注
这篇论文的意义在于它证明了:长上下文能力不完全是参数规模的函数。通过精心设计的数据和训练方法,中等规模模型也能在长上下文任务上达到顶级水平。
更重要的是,它的完全开源性质——不只是模型权重,而是完整的训练管线和数据——让社区可以在此基础上复现、改进和扩展。
论文地址:arXiv:2605.19577