В день запуска DeepSeek-V4, наряду с обсуждениями самой модели, появилось тихое, но значимое объявление: SGLang и Miles завершили поддержку вывода и RL-обучения для DeepSeek-V4 в день выпуска.
В блоге от 25 апреля LMSYS написала: «SGLang и Miles формируют первый стек с открытым исходным кодом для обслуживания и обучения DeepSeek-V4 в день запуска».
Первый стек с открытым исходным кодом, полностью работоспособный в день выпуска новой модели. Эта скорость не случайность — это показатель зрелости инфраструктуры.
Что означает поддержка в день выпуска
Традиционный паттерн: новая модель выпускается, сообщество ждёт дни или недели, чтобы её запустить. Архитектура модели нуждается в адаптации, параметры вывода нуждаются в настройке, скрипты обучения нуждаются в модификации.
Поддержка в день выпуска ломает этот цикл ожидания. Модель запускается, а сервис вывода и фреймворк RL-обучения уже готовы.
Сообщество может тестировать немедленно. Не нужно ждать кода адаптации — просто запускай. Для исследователей это означает более быструю валидацию производительности DeepSeek-V4 на реальных задачах.
RL-обучение может начаться сразу. Miles — это фреймворк крупномасштабного RL-обучения LMSYS. Поддержка в день выпуска означает, что конвейеры RLHF или DPO могут запуститься сразу после получения весов модели.
Комбинация SGLang + Miles
Эти два компонента работают вместе как скоординированный стек:
SGLang обслуживает вывод. Его непрерывная пакетная обработка и radix attention cache уже являются оптимизациями отраслевого уровня.
Miles занимается крупномасштабным RL-обучением. От PPO до DPO до новейшего GRPO, Miles охватывает основные парадигмы RL-обучения.
Вместе они формируют полный стек с открытым исходным кодом от вывода до обучения до развёртывания. Ключевая характеристика: отсутствие зависимости от любых закрытых компонентов.
Основные источники: