LMSYS P2P 重み転送：1T パラメータ RL 訓練を秒単位で同期

1 兆パラメータの強化学習モデルを訓練する際、最も難しいのは前方推論ではなく、更新された重みをすべてのノードに同期する方法だ。

LMSYS チームは 2026 年 4 月 29 日、技術ブログで新しい重み更新アプローチを発表した：RDMA ベースのピアツーピア（P2P）転送を、従来の NCCL ブロードキャストの補完として導入。

タイトルは率直だ：「1 兆パラメータを秒で更新」。誇張ではなく、実際に秒単位の同期を実現している。

NCCL ブロードキャストが足りない理由

大規模分散 RL 訓練において、重みの同期方法は訓練効率に直接影響する。従来アプローチは NCCL の broadcast 操作を使用する — 1 つのノードが重みを更新し、すべての他のノードにブロードキャストする。

問題：モデルが兆パラメータスケールに達すると、ブロードキャストがボトルネックになる。すべてのノードが 1 つのノードの送信完了を待つ必要がある。

P2P アプローチはロジックを変える：各ノードは必要なノードとのみ通信し、全量ブロードキャストではない。RDMA を使用して CPU と OS をバイパスし、GPU メモリ間で直接データを転送する。

LMSYS の説明によると、このアプローチにはいくつかの特徴がある：

すべての主要オープンソースモデルと互換性：特定のモデル向けのカスタム最適化ではなく、SGLang のフレームワークレベルの機能。DeepSeek-V4、Qwen シリーズなどのオープンソース MoE モデルがすべて直接使用できる。

補完、置き換えではない：P2P は NCCL ブロードキャストを置き換えようとしているのではなく、別のオプションを提供する。

秒単位の同期：兆パラメータモデルの重み更新が分単位から秒単位に圧縮された。

主要ソース：