GoLongRL：开源长上下文 RL 训练方案，30B 模型比肩 DeepSeek-R1-0528

长上下文（Long Context）一直是 LLM 的软肋。把上下文窗口拉到 128K、256K 甚至 1M 不难，难的是让模型真正理解长文本中的信息并做出正确推理。

GoLongRL 这篇论文走了一条有意思的路：不是堆参数，而是用强化学习 + 多样化奖励来教模型处理长上下文。而且它是完全开源的——数据集、训练代码、构建管线全部公开。

问题意识：现有方法的盲区

论文指出现有长上下文 RL 方法的一个共性缺陷：把数据构建等同于"设计越来越复杂的检索路径"。结果就是任务覆盖同质化，奖励公式无法反映真实的长上下文需求。

打个比方：你教一个学生读长文章，不是让他反复练习找关键词，而是要让他掌握不同类型的长文本处理能力——总结、推理、对比、提取、定位……

团队发布了一个 23K 样本的 RLVR 数据集，覆盖 9 种任务类型，每种任务都配有自然的评估指标。

数据来源分两部分：

在相同的 vanilla GRPO 设置下，仅靠这个数据集就超越了闭源的 QwenLong-L1.5 数据集。

不同任务的难度和重要性不同，GoLongRL 提出了一种任务-度量-网络（TMN）重加权方法，让模型在训练过程中自动调整对不同任务的关注程度。

论文给出的数字相当亮眼：

Qwen3-30B-A3B 在长上下文任务上的表现，可比肩 DeepSeek-R1-0528 和 Qwen3-235B-A22B-Thinking-2507
30B 对 235B，参数差了将近 8 倍
仅数据集本身就在 GRPO 下超越了闭源基准

这篇论文的意义在于它证明了：长上下文能力不完全是参数规模的函数。通过精心设计的数据和训练方法，中等规模模型也能在长上下文任务上达到顶级水平。

更重要的是，它的完全开源性质——不只是模型权重，而是完整的训练管线和数据——让社区可以在此基础上复现、改进和扩展。