C
ChaoBro

DeepMindのDecoupled DiLoCo:ノード障害に強い分散学習が大モデルの訓練経済を変える可能性

DeepMindのDecoupled DiLoCo:ノード障害に強い分散学習が大モデルの訓練経済を変える可能性

最先端モデルの訓練で最も高いのは計算リソース自体ではなく、「計算を無駄にできない」という制約による隠れたコスト。

Decoupled DiLoCoはローカル最適化とグローバル同期を分離し、1つのノードが失敗しても残りに影響しないようにする。

主なソース: