C
ChaoBro

Decoupled DiLoCo от DeepMind: распределённое обучение, устойчивое к отказам узлов — и почему это меняет экономику обучения

Decoupled DiLoCo от DeepMind: распределённое обучение, устойчивое к отказам узлов — и почему это меняет экономику обучения

Самая дорогая часть обучения передовой модели — не само вычисление, а скрытые затраты из-за требования «вычисления не могут быть потрачены впустую».

Decoupled DiLoCo разделяет локальную оптимизацию и глобальную синхронизацию, чтобы отказ одного узла не влиял на остальные.

Основные источники: