C
ChaoBro

Meta совместно с AMD, Broadcom, Intel, Microsoft и NVIDIA выпускает протокол MRC: решение сетевых бутылочных горлышек в AI-тренировочных кластерах

Meta совместно с AMD, Broadcom, Intel, Microsoft и NVIDIA выпускает протокол MRC: решение сетевых бутылочных горлышек в AI-тренировочных кластерах

Ключевой вывод

6 мая 2026 года Meta совместно с пятью технологическими гигантами — AMD, Broadcom, Intel, Microsoft и NVIDIA — выпустила открытый сетевой протокол Multipath Reliable Connection (MRC). Это новый сетевой протокол, специально разработанный для крупномасштабных AI-тренировочных кластеров, с ключевой целью сократить время ожидания GPU, минимизировать прерывания тренировок, вызванные сетевыми сбоями, и повысить общую эффективность тренировок.

Этот твит в день публикации получил 4485 лайков, 488 ретвитов и 1250 закладок, с просмотрами, превышающими 580 тысяч — вызвав необычайно высокую дискуссию в области AI-инфраструктуры.

Что произошло

Ключевое позиционирование протокола MRC: заставить крупномасштабные AI-тренировочные кластеры работать быстрее и стабильнее, сокращая wasted GPU-время.

Состав участников

КомпанияРольПозиция в AI-инфраструктуре
MetaИнициаторСторона спроса на тренировку ультра-больших моделей (серия Llama)
AMDСо-издательПоставщик вычислительных мощностей GPU/CPU
BroadcomСо-издательКастомный дизайн AI-сетевых чипов
IntelСо-издательПоставщик CPU/сетевых процессоров
MicrosoftСо-издательОператор облачной инфраструктуры (Azure)
NVIDIAСо-издательПоставщик GPU и сетевых решений (InfiniBand)

Значимость этого состава в том, что он охватывает практически всю цепочку AI-тренировочной инфраструктуры — от вычислительных чипов до сетевого оборудования, от облачных операторов до сторон тренировки моделей.

Какую проблему решает протокол MRC

Ключевые сетевые вызовы, с которыми сталкиваются крупномасштабные AI-тренировочные кластеры:

Проблемы традиционного подхода:
┌─────┐    ┌─────┐    ┌─────┐
│GPU 0│────│GPU 1│────│GPU 2│  ← Зависимость от одного пути, любой сбой линии вызывает прерывание тренировки
└─────┘    └─────┘    └─────┘
    │          │          │
    └──────────┴──────────┘
         Один сетевой путь
Улучшение подхода MRC:
┌─────┐    ┌─────┐    ┌─────┐
│GPU 0│═══│GPU 1│═══│GPU 2│  ← Многопутевое надёжное соединение, автоматическое переключение при отказе
└─────┘    └─────┘    └─────┘
    │   ╲    │   ╲    │
    │    ╲   │    ╲   │
    │     ╲  │     ╲  │
    └══════╲═┴══════╲═┘
      Многопутевая избыточность + надёжная передача

Технические преимущества

ПараметрТрадиционный подходПротокол MRC
Сетевой путьОдин путь, сбой = прерываниеМногопутевая избыточность, автоматическое переключение при отказе
НадёжностьЗависит от стабильности физической линииНадёжный уровень соединения, программная отказоустойчивость
Утилизация GPUСетевые проблемы вызывают простой GPU в ожиданииСокращённое время ожидания GPU
ОткрытостьПроприетарный протокол вендора (например, InfiniBand)Открытый протокол, кросс-вендорная совместимость
Поддержка экосистемыПривязка к решениям конкретного вендораШесть технологических гигантов совместно поддерживают, открытый стандарт

Почему это важно

1. Бутылочное горлышко AI-тренировок смещается от вычислений к сети

По мере роста размеров моделей (от сотен миллиардов до триллионов параметров) количество GPU в тренировочных кластерах увеличивается от сотен до десятков тысяч. По мере увеличения количества GPU накладные расходы на сетевую коммуникацию и частота сбоев растут экспоненциально.

Типичная тренировочная задача модели с триллионом параметров:

  • Требует одновременной работы тысяч GPU
  • Синхронизация параметров между GPU потребляет значительную сетевую пропускную способность
  • Сбой сети любого одного GPU может вызвать приостановку всей тренировочной задачи

Протокол MRC напрямую адресует эту болевую точку, снижая влияние сетевых сбоев на тренировку через многопутевую избыточность и надёжный уровень соединения.

2. Конкуренция открытых и проприетарных протоколов

Текущие сетевые решения для AI-тренировочных кластеров в основном монополизированы InfiniBand от NVIDIA. Появление MRC как открытого протокола означает:

  • Снижение риска привязки к вендору: Операторы кластеров могут смешивать сетевое оборудование от разных вендоров
  • Снижение затрат на инфраструктуру: Конкуренция от открытых протоколов может снизить цены на сетевое оборудование
  • Ускорение технических инноваций: Участие нескольких вендоров стимулирует итерацию протокола

3. Сигнал роста AI-бизнеса дата-центров AMD на 80%

В тот же день AMD объявила, что её бизнес AI в дата-центрах, как ожидается, вырастет на 80%, в основном благодаря заказам GPU/CPU от облачных и инфраструктурных операторов. AMD также отметила: прогнозы рынка теперь догоняют фактические циклы развёртывания, сигнализируя о устойчивом спросе впереди.

Это перекликается с выпуском протокола MRC — рынок AI-инфраструктуры находится на поворотной точке от планирования к крупномасштабному развёртыванию.

Влияние на отрасль

Для сторон тренировки моделей

  • Более высокая стабильность тренировок: Сокращение прерываний и перезапусков тренировок, вызванных сетевыми проблемами
  • Более низкие затраты на простой GPU: Меньше времени ожидания GPU для сети, повышенная эффективность тренировок
  • Более гибкий выбор оборудования: Больше не привязаны к сетевым решениям конкретных вендоров

Для облачных провайдеров

  • Дифференцированная конкуренция инфраструктуры: Облачные платформы, поддерживающие протокол MRC, получают преимущество в эффективности тренировок
  • Снижение сложности операций: Многопутевая избыточность снижает зависимость от стабильности физической сети

Для поставщиков чипов

  • Новое измерение конкуренции: Конкуренция на уровне сетевого протокола повлияет на динамику рынка GPU/сетевых чипов
  • Возможности открытой экосистемы: Мелкие вендоры могут войти на рынок AI-инфраструктуры, поддерживая протокол MRC

Оценка рынка

Выпуск протокола MRC является водораздельным событием в области AI-инфраструктуры. Он отмечает:

  1. Сдвиг в понимании бутылочного горлышка AI-тренировок — от «нужно больше GPU» к «нужна лучшая сеть»
  2. Открытые протоколы бросают вызов монополии проприетарных протоколов — ров InfiniBand размывается
  3. Отраслевые гиганты совместно устанавливают стандарты — совместное участие Meta, NVIDIA, AMD, Intel и других показывает, что стандартизация AI-инфраструктуры ускоряется

Для китайской AI-индустрии есть две причины следить за развитием протокола MRC: тренировка крупных внутренних моделей также сталкивается с проблемами сетевого бутылочного горлышка кластеров; и появление открытых протоколов может снизить порог для внутренних вендоров для доступа к AI-тренировочной инфраструктуре.