C
ChaoBro

LMSYS P2P 重み転送:1T パラメータ RL 訓練を秒単位で同期

LMSYS P2P 重み転送:1T パラメータ RL 訓練を秒単位で同期

1 兆パラメータの強化学習モデルを訓練する際、最も難しいのは前方推論ではなく、更新された重みをすべてのノードに同期する方法だ。

LMSYS チームは 2026 年 4 月 29 日、技術ブログで新しい重み更新アプローチを発表した:RDMA ベースのピアツーピア(P2P)転送を、従来の NCCL ブロードキャストの補完として導入。

タイトルは率直だ:「1 兆パラメータを秒で更新」。誇張ではなく、実際に秒単位の同期を実現している。

NCCL ブロードキャストが足りない理由

大規模分散 RL 訓練において、重みの同期方法は訓練効率に直接影響する。従来アプローチは NCCL の broadcast 操作を使用する — 1 つのノードが重みを更新し、すべての他のノードにブロードキャストする。

問題:モデルが兆パラメータスケールに達すると、ブロードキャストがボトルネックになる。すべてのノードが 1 つのノードの送信完了を待つ必要がある。

P2P アプローチはロジックを変える:各ノードは必要なノードとのみ通信し、全量ブロードキャストではない。RDMA を使用して CPU と OS をバイパスし、GPU メモリ間で直接データを転送する。

実際の意味

LMSYS の説明によると、このアプローチにはいくつかの特徴がある:

すべての主要オープンソースモデルと互換性:特定のモデル向けのカスタム最適化ではなく、SGLang のフレームワークレベルの機能。DeepSeek-V4、Qwen シリーズなどのオープンソース MoE モデルがすべて直接使用できる。

補完、置き換えではない:P2P は NCCL ブロードキャストを置き換えようとしているのではなく、別のオプションを提供する。

秒単位の同期:兆パラメータモデルの重み更新が分単位から秒単位に圧縮された。

主要ソース: