Meta совместно с AMD, Broadcom, Intel, Microsoft и NVIDIA выпускает протокол MRC: решение сетевых бутылочных горлышек в AI-тренировочных кластерах

Ключевой вывод

6 мая 2026 года Meta совместно с пятью технологическими гигантами — AMD, Broadcom, Intel, Microsoft и NVIDIA — выпустила открытый сетевой протокол Multipath Reliable Connection (MRC). Это новый сетевой протокол, специально разработанный для крупномасштабных AI-тренировочных кластеров, с ключевой целью сократить время ожидания GPU, минимизировать прерывания тренировок, вызванные сетевыми сбоями, и повысить общую эффективность тренировок.

Этот твит в день публикации получил 4485 лайков, 488 ретвитов и 1250 закладок, с просмотрами, превышающими 580 тысяч — вызвав необычайно высокую дискуссию в области AI-инфраструктуры.

Что произошло

Ключевое позиционирование протокола MRC: заставить крупномасштабные AI-тренировочные кластеры работать быстрее и стабильнее, сокращая wasted GPU-время.

Состав участников

Компания	Роль	Позиция в AI-инфраструктуре
Meta	Инициатор	Сторона спроса на тренировку ультра-больших моделей (серия Llama)
AMD	Со-издатель	Поставщик вычислительных мощностей GPU/CPU
Broadcom	Со-издатель	Кастомный дизайн AI-сетевых чипов
Intel	Со-издатель	Поставщик CPU/сетевых процессоров
Microsoft	Со-издатель	Оператор облачной инфраструктуры (Azure)
NVIDIA	Со-издатель	Поставщик GPU и сетевых решений (InfiniBand)

Значимость этого состава в том, что он охватывает практически всю цепочку AI-тренировочной инфраструктуры — от вычислительных чипов до сетевого оборудования, от облачных операторов до сторон тренировки моделей.

Какую проблему решает протокол MRC

Ключевые сетевые вызовы, с которыми сталкиваются крупномасштабные AI-тренировочные кластеры:

Проблемы традиционного подхода:
┌─────┐    ┌─────┐    ┌─────┐
│GPU 0│────│GPU 1│────│GPU 2│  ← Зависимость от одного пути, любой сбой линии вызывает прерывание тренировки
└─────┘    └─────┘    └─────┘
    │          │          │
    └──────────┴──────────┘
         Один сетевой путь

Улучшение подхода MRC:
┌─────┐    ┌─────┐    ┌─────┐
│GPU 0│═══│GPU 1│═══│GPU 2│  ← Многопутевое надёжное соединение, автоматическое переключение при отказе
└─────┘    └─────┘    └─────┘
    │   ╲    │   ╲    │
    │    ╲   │    ╲   │
    │     ╲  │     ╲  │
    └══════╲═┴══════╲═┘
      Многопутевая избыточность + надёжная передача

Технические преимущества

Параметр	Традиционный подход	Протокол MRC
Сетевой путь	Один путь, сбой = прерывание	Многопутевая избыточность, автоматическое переключение при отказе
Надёжность	Зависит от стабильности физической линии	Надёжный уровень соединения, программная отказоустойчивость
Утилизация GPU	Сетевые проблемы вызывают простой GPU в ожидании	Сокращённое время ожидания GPU
Открытость	Проприетарный протокол вендора (например, InfiniBand)	Открытый протокол, кросс-вендорная совместимость
Поддержка экосистемы	Привязка к решениям конкретного вендора	Шесть технологических гигантов совместно поддерживают, открытый стандарт

Почему это важно

1. Бутылочное горлышко AI-тренировок смещается от вычислений к сети

По мере роста размеров моделей (от сотен миллиардов до триллионов параметров) количество GPU в тренировочных кластерах увеличивается от сотен до десятков тысяч. По мере увеличения количества GPU накладные расходы на сетевую коммуникацию и частота сбоев растут экспоненциально.

Типичная тренировочная задача модели с триллионом параметров:

Требует одновременной работы тысяч GPU
Синхронизация параметров между GPU потребляет значительную сетевую пропускную способность
Сбой сети любого одного GPU может вызвать приостановку всей тренировочной задачи

Протокол MRC напрямую адресует эту болевую точку, снижая влияние сетевых сбоев на тренировку через многопутевую избыточность и надёжный уровень соединения.

2. Конкуренция открытых и проприетарных протоколов

Текущие сетевые решения для AI-тренировочных кластеров в основном монополизированы InfiniBand от NVIDIA. Появление MRC как открытого протокола означает:

Снижение риска привязки к вендору: Операторы кластеров могут смешивать сетевое оборудование от разных вендоров
Снижение затрат на инфраструктуру: Конкуренция от открытых протоколов может снизить цены на сетевое оборудование
Ускорение технических инноваций: Участие нескольких вендоров стимулирует итерацию протокола

3. Сигнал роста AI-бизнеса дата-центров AMD на 80%

В тот же день AMD объявила, что её бизнес AI в дата-центрах, как ожидается, вырастет на 80%, в основном благодаря заказам GPU/CPU от облачных и инфраструктурных операторов. AMD также отметила: прогнозы рынка теперь догоняют фактические циклы развёртывания, сигнализируя о устойчивом спросе впереди.

Это перекликается с выпуском протокола MRC — рынок AI-инфраструктуры находится на поворотной точке от планирования к крупномасштабному развёртыванию.

Влияние на отрасль

Для сторон тренировки моделей

Более высокая стабильность тренировок: Сокращение прерываний и перезапусков тренировок, вызванных сетевыми проблемами
Более низкие затраты на простой GPU: Меньше времени ожидания GPU для сети, повышенная эффективность тренировок
Более гибкий выбор оборудования: Больше не привязаны к сетевым решениям конкретных вендоров

Для облачных провайдеров

Дифференцированная конкуренция инфраструктуры: Облачные платформы, поддерживающие протокол MRC, получают преимущество в эффективности тренировок
Снижение сложности операций: Многопутевая избыточность снижает зависимость от стабильности физической сети

Для поставщиков чипов

Новое измерение конкуренции: Конкуренция на уровне сетевого протокола повлияет на динамику рынка GPU/сетевых чипов
Возможности открытой экосистемы: Мелкие вендоры могут войти на рынок AI-инфраструктуры, поддерживая протокол MRC

Оценка рынка

Выпуск протокола MRC является водораздельным событием в области AI-инфраструктуры. Он отмечает:

Сдвиг в понимании бутылочного горлышка AI-тренировок — от «нужно больше GPU» к «нужна лучшая сеть»
Открытые протоколы бросают вызов монополии проприетарных протоколов — ров InfiniBand размывается
Отраслевые гиганты совместно устанавливают стандарты — совместное участие Meta, NVIDIA, AMD, Intel и других показывает, что стандартизация AI-инфраструктуры ускоряется

Для китайской AI-индустрии есть две причины следить за развитием протокола MRC: тренировка крупных внутренних моделей также сталкивается с проблемами сетевого бутылочного горлышка кластеров; и появление открытых протоколов может снизить порог для внутренних вендоров для доступа к AI-тренировочной инфраструктуре.