Самая дорогая часть обучения передовой модели — не само вычисление, а скрытые затраты из-за требования «вычисления не могут быть потрачены впустую».
Decoupled DiLoCo разделяет локальную оптимизацию и глобальную синхронизацию, чтобы отказ одного узла не влиял на остальные.
Основные источники: