長文脈(Long Context)は、大規模言語モデル(LLM)のいまだ克服されていない課題です。文脈ウィンドウを128K、256K、さらには1Mトークンまで拡張するのは技術的には容易ですが、その難しさは、モデルが本当に長文書内の情報を理解し、正確な推論を行うことにあります。
GoLongRLという論文は、興味深いアプローチを採用しています。すなわち、単にパラメータ数を増やすのではなく、強化学習+多様な報酬設計によって、モデルに長文脈処理能力を教えるという方法です。さらに重要なのは、この手法が完全にオープンソースである点です——データセット、トレーニングコード、ビルドパイプラインすべてが公開されています。
問題意識:既存手法の盲点
論文では、現在の長文脈RL手法に共通する欠陥を指摘しています。すなわち、「データ構築=ますます複雑な検索パスの設計」と同一視してしまう傾向です。その結果、タスクのカバレッジが均質化し、報酬関数が実際の長文脈における真の要請を反映できなくなってしまいます。
たとえて言うなら:長文を読む学生を教えるとき、単にキーワードを探す練習を繰り返させるのではなく、さまざまなタイプの長文処理能力——要約、推論、比較、抽出、位置特定など——をバランスよく身につけさせなければならないのです。
2つの主要な貢献
1. 能力志向型のデータ構築
研究チームは、9種類のタスクタイプを網羅した23,000件のRLVRデータセットを公開しました。各タスクには、自然で直感的な評価指標が付与されています。
データの出所は以下の2つに分けられます:
- 成熟したコーパスから厳選されたオープンサンプル
- 実際の一次資料(書籍、学術論文、マルチターン対話)から合成されたQAペア
同じvanilla GRPO設定下で評価したところ、このデータセットのみを用いた場合でも、クローズドソースのQwenLong-L1.5データセットを上回る性能を示しました。
2. TMN-Reweight:多タスク報酬再重み付け手法
異なるタスクにはそれぞれ異なる難易度・重要度があります。GoLongRLでは、タスク-指標-ネットワーク(TMN)に基づく再重み付け手法を提案し、モデルがトレーニング中に自動的に各タスクへの注目度を調整できるようにしています。
性能評価結果
論文で提示された数値は非常に印象的です:
- Qwen3-30B-A3Bは、長文脈タスクにおいてDeepSeek-R1-0528およびQwen3-235B-A22B-Thinking-2507と同等の性能を達成
- パラメータ数は30B対235Bで、約8倍の差
- データセット単体でも、GRPOフレームワーク下でクローズドソースのベンチマークを上回りました
注目すべき理由
本論文の意義は、長文脈能力が単なるパラメータ規模の関数ではないことを実証した点にあります。洗練されたデータ設計とトレーニング手法を用いることで、中規模モデルでも長文脈タスクにおいてトップレベルの性能を実現可能であることが示されたのです。
さらに重要なのは、その完全なオープンソース性です。モデルの重みだけでなく、トレーニングパイプライン全体およびデータセットが公開されているため、コミュニティはこれを基盤として再現・改良・拡張することが可能です。
論文URL:arXiv:2605.19577