Ключевой вывод
6 мая 2026 года Meta совместно с пятью технологическими гигантами — AMD, Broadcom, Intel, Microsoft и NVIDIA — выпустила открытый сетевой протокол Multipath Reliable Connection (MRC). Это новый сетевой протокол, специально разработанный для крупномасштабных AI-тренировочных кластеров, с ключевой целью сократить время ожидания GPU, минимизировать прерывания тренировок, вызванные сетевыми сбоями, и повысить общую эффективность тренировок.
Этот твит в день публикации получил 4485 лайков, 488 ретвитов и 1250 закладок, с просмотрами, превышающими 580 тысяч — вызвав необычайно высокую дискуссию в области AI-инфраструктуры.
Что произошло
Ключевое позиционирование протокола MRC: заставить крупномасштабные AI-тренировочные кластеры работать быстрее и стабильнее, сокращая wasted GPU-время.
Состав участников
| Компания | Роль | Позиция в AI-инфраструктуре |
|---|---|---|
| Meta | Инициатор | Сторона спроса на тренировку ультра-больших моделей (серия Llama) |
| AMD | Со-издатель | Поставщик вычислительных мощностей GPU/CPU |
| Broadcom | Со-издатель | Кастомный дизайн AI-сетевых чипов |
| Intel | Со-издатель | Поставщик CPU/сетевых процессоров |
| Microsoft | Со-издатель | Оператор облачной инфраструктуры (Azure) |
| NVIDIA | Со-издатель | Поставщик GPU и сетевых решений (InfiniBand) |
Значимость этого состава в том, что он охватывает практически всю цепочку AI-тренировочной инфраструктуры — от вычислительных чипов до сетевого оборудования, от облачных операторов до сторон тренировки моделей.
Какую проблему решает протокол MRC
Ключевые сетевые вызовы, с которыми сталкиваются крупномасштабные AI-тренировочные кластеры:
Проблемы традиционного подхода:
┌─────┐ ┌─────┐ ┌─────┐
│GPU 0│────│GPU 1│────│GPU 2│ ← Зависимость от одного пути, любой сбой линии вызывает прерывание тренировки
└─────┘ └─────┘ └─────┘
│ │ │
└──────────┴──────────┘
Один сетевой путь
Улучшение подхода MRC:
┌─────┐ ┌─────┐ ┌─────┐
│GPU 0│═══│GPU 1│═══│GPU 2│ ← Многопутевое надёжное соединение, автоматическое переключение при отказе
└─────┘ └─────┘ └─────┘
│ ╲ │ ╲ │
│ ╲ │ ╲ │
│ ╲ │ ╲ │
└══════╲═┴══════╲═┘
Многопутевая избыточность + надёжная передача
Технические преимущества
| Параметр | Традиционный подход | Протокол MRC |
|---|---|---|
| Сетевой путь | Один путь, сбой = прерывание | Многопутевая избыточность, автоматическое переключение при отказе |
| Надёжность | Зависит от стабильности физической линии | Надёжный уровень соединения, программная отказоустойчивость |
| Утилизация GPU | Сетевые проблемы вызывают простой GPU в ожидании | Сокращённое время ожидания GPU |
| Открытость | Проприетарный протокол вендора (например, InfiniBand) | Открытый протокол, кросс-вендорная совместимость |
| Поддержка экосистемы | Привязка к решениям конкретного вендора | Шесть технологических гигантов совместно поддерживают, открытый стандарт |
Почему это важно
1. Бутылочное горлышко AI-тренировок смещается от вычислений к сети
По мере роста размеров моделей (от сотен миллиардов до триллионов параметров) количество GPU в тренировочных кластерах увеличивается от сотен до десятков тысяч. По мере увеличения количества GPU накладные расходы на сетевую коммуникацию и частота сбоев растут экспоненциально.
Типичная тренировочная задача модели с триллионом параметров:
- Требует одновременной работы тысяч GPU
- Синхронизация параметров между GPU потребляет значительную сетевую пропускную способность
- Сбой сети любого одного GPU может вызвать приостановку всей тренировочной задачи
Протокол MRC напрямую адресует эту болевую точку, снижая влияние сетевых сбоев на тренировку через многопутевую избыточность и надёжный уровень соединения.
2. Конкуренция открытых и проприетарных протоколов
Текущие сетевые решения для AI-тренировочных кластеров в основном монополизированы InfiniBand от NVIDIA. Появление MRC как открытого протокола означает:
- Снижение риска привязки к вендору: Операторы кластеров могут смешивать сетевое оборудование от разных вендоров
- Снижение затрат на инфраструктуру: Конкуренция от открытых протоколов может снизить цены на сетевое оборудование
- Ускорение технических инноваций: Участие нескольких вендоров стимулирует итерацию протокола
3. Сигнал роста AI-бизнеса дата-центров AMD на 80%
В тот же день AMD объявила, что её бизнес AI в дата-центрах, как ожидается, вырастет на 80%, в основном благодаря заказам GPU/CPU от облачных и инфраструктурных операторов. AMD также отметила: прогнозы рынка теперь догоняют фактические циклы развёртывания, сигнализируя о устойчивом спросе впереди.
Это перекликается с выпуском протокола MRC — рынок AI-инфраструктуры находится на поворотной точке от планирования к крупномасштабному развёртыванию.
Влияние на отрасль
Для сторон тренировки моделей
- Более высокая стабильность тренировок: Сокращение прерываний и перезапусков тренировок, вызванных сетевыми проблемами
- Более низкие затраты на простой GPU: Меньше времени ожидания GPU для сети, повышенная эффективность тренировок
- Более гибкий выбор оборудования: Больше не привязаны к сетевым решениям конкретных вендоров
Для облачных провайдеров
- Дифференцированная конкуренция инфраструктуры: Облачные платформы, поддерживающие протокол MRC, получают преимущество в эффективности тренировок
- Снижение сложности операций: Многопутевая избыточность снижает зависимость от стабильности физической сети
Для поставщиков чипов
- Новое измерение конкуренции: Конкуренция на уровне сетевого протокола повлияет на динамику рынка GPU/сетевых чипов
- Возможности открытой экосистемы: Мелкие вендоры могут войти на рынок AI-инфраструктуры, поддерживая протокол MRC
Оценка рынка
Выпуск протокола MRC является водораздельным событием в области AI-инфраструктуры. Он отмечает:
- Сдвиг в понимании бутылочного горлышка AI-тренировок — от «нужно больше GPU» к «нужна лучшая сеть»
- Открытые протоколы бросают вызов монополии проприетарных протоколов — ров InfiniBand размывается
- Отраслевые гиганты совместно устанавливают стандарты — совместное участие Meta, NVIDIA, AMD, Intel и других показывает, что стандартизация AI-инфраструктуры ускоряется
Для китайской AI-индустрии есть две причины следить за развитием протокола MRC: тренировка крупных внутренних моделей также сталкивается с проблемами сетевого бутылочного горлышка кластеров; и появление открытых протоколов может снизить порог для внутренних вендоров для доступа к AI-тренировочной инфраструктуре.