Zhipu публично раскрыла проблемы масштабирования GLM-5: отладка искажённого вывода раскрывает тёмную сторону законов масштабирования

Что законы масштабирования вам не расскажут: чем больше модель, тем страннее баги

Законы масштабирования говорят нам, что способность модели будет стабильно расти с увеличением параметров и данных. Но законы масштабирования не говорят вам, что когда масштаб модели пересекает определённый порог, в процессе обслуживания появляются вероятностные, крайне трудно воспроизводимые garbled outputs (искажённый вывод).

Zhipu AI (THUDM) 29 апреля опубликовала технический блог под названием Scaling Pain: Debugging GLM-5 Serving at Scale, подробно описав опыт отладки проблем крупномасштабного вывода GLM-5. Пост получил 843 лайка и 295 закладок, вызвав широкое обсуждение в сообществе.

Проблема: спорадический искажённый вывод, только в масштабе

GLM-5 — это MoE-модель на 744B параметров. На одной машине или небольшом кластере всё работает нормально. Но при развёртывании в производственном распределённом кластере команда столкнулась со странной проблемой:

В выводе периодически появлялся garbled text (искажённый текст), но ошибки были крайне редкими и трудными для воспроизведения.

Это не была обычная проблема кодирования или ошибка токенизации — она появлялась только при определённых конфигурациях распределённого обслуживания с определённой вероятностью. Команда потратила значительные усилия на создание надёжного конвейера воспроизведения.

Методология отладки

Команда Zhipu поделилась трёхэтапной структурой отладки в своём блоге:

Этап	Метод	Результат
Воспроизведение	Создание детерминированных тестовых случаев, принудительный триггер с конкретными seed	Воспроизводимые образцы искажённого вывода
Локализация	Послойная проверка тензорной коммуникации в конвейере распределённого вывода	Обнаружен численный дрейф между определёнными узлами
Исправление	Настройка стратегии смешанной точности, введение guard численной стабильности	Искажённый вывод устранен, без потери производительности

Ключевое открытие: в крупномасштабном MoE-выводе inconsistency числовой точности между различными expert может накапливаться до степени, влияющей на качество вывода. Это особенно заметно при высокой конкурентности.

Почему это важно

Этот блог ценен тем, что это один из немногих первичных раскрытий Scaling Pain обслуживания крупных моделей. Индустрия переполнена дискуссиями о «способностях моделей», но материалов о «как заставить MoE-модель на 744B стабильно работать в продакшене» — считанные единицы.

Для предприятий и разработателей, рассматривающих самостоятельное развёртывание отечественных крупных моделей, эта информация имеет высокую практическую ценность:

Не предполагайте, что тесты на одной машине означают готовность к продакшену: распределённый вывод вводит совершенно новые режимы отказов
Численная стабильность — скрытая задача для MoE: при экспертной параллелизации дрейф точности между разными GPU усиливается
Создание детерминированного воспроизведения эффективнее слепого тюнинга: первый шаг команды Zhipu — создание воспроизводимых тестовых случаев

Что законы масштабирования вам не расскажут: чем больше модель, тем страннее баги

Проблема: спорадический искажённый вывод, только в масштабе

Методология отладки

Почему это важно

Рекомендации к действию

Похожие материалы

GLM-5.1 / DeepSeek V4 Pro / Kimi K2.6: Как выбрать сервис инференса — полное сравнение официального API, подписки вендора и самостоятельного хостинга

Gemini CLI v0.40.0 поддерживает локальную Gemma: умная маршрутизация делает простые задачи бесплатными

Внутренняя функция Anthropic Cardinal: Claude получит визуальную ретроспективу взаимодействий