C
ChaoBro

GoLongRL:开源长上下文 RL 训练方案,30B 模型比肩 DeepSeek-R1-0528

GoLongRL:开源长上下文 RL 训练方案,30B 模型比肩 DeepSeek-R1-0528

长上下文(Long Context)一直是 LLM 的软肋。把上下文窗口拉到 128K、256K 甚至 1M 不难,难的是让模型真正理解长文本中的信息并做出正确推理。

GoLongRL 这篇论文走了一条有意思的路:不是堆参数,而是用强化学习 + 多样化奖励来教模型处理长上下文。而且它是完全开源的——数据集、训练代码、构建管线全部公开。

问题意识:现有方法的盲区

论文指出现有长上下文 RL 方法的一个共性缺陷:把数据构建等同于"设计越来越复杂的检索路径"。结果就是任务覆盖同质化,奖励公式无法反映真实的长上下文需求。

打个比方:你教一个学生读长文章,不是让他反复练习找关键词,而是要让他掌握不同类型的长文本处理能力——总结、推理、对比、提取、定位……

两个核心贡献

1. 能力导向的数据构建

团队发布了一个 23K 样本的 RLVR 数据集,覆盖 9 种任务类型,每种任务都配有自然的评估指标。

数据来源分两部分:

  • 从成熟语料库中精选的开放样本
  • 从真实源文档(书籍、学术论文、多轮对话)合成的 QA 对

在相同的 vanilla GRPO 设置下,仅靠这个数据集就超越了闭源的 QwenLong-L1.5 数据集。

2. TMN-Reweight 多任务奖励加权

不同任务的难度和重要性不同,GoLongRL 提出了一种任务-度量-网络(TMN)重加权方法,让模型在训练过程中自动调整对不同任务的关注程度。

性能表现

论文给出的数字相当亮眼:

  • Qwen3-30B-A3B 在长上下文任务上的表现,可比肩 DeepSeek-R1-0528 和 Qwen3-235B-A22B-Thinking-2507
  • 30B 对 235B,参数差了将近 8 倍
  • 仅数据集本身就在 GRPO 下超越了闭源基准

为什么值得关注

这篇论文的意义在于它证明了:长上下文能力不完全是参数规模的函数。通过精心设计的数据和训练方法,中等规模模型也能在长上下文任务上达到顶级水平。

更重要的是,它的完全开源性质——不只是模型权重,而是完整的训练管线和数据——让社区可以在此基础上复现、改进和扩展。

论文地址:arXiv:2605.19577