C
ChaoBro

SGLang и Miles обеспечивают поддержку DeepSeek-V4 в день выпуска

SGLang и Miles обеспечивают поддержку DeepSeek-V4 в день выпуска

В день запуска DeepSeek-V4, наряду с обсуждениями самой модели, появилось тихое, но значимое объявление: SGLang и Miles завершили поддержку вывода и RL-обучения для DeepSeek-V4 в день выпуска.

В блоге от 25 апреля LMSYS написала: «SGLang и Miles формируют первый стек с открытым исходным кодом для обслуживания и обучения DeepSeek-V4 в день запуска».

Первый стек с открытым исходным кодом, полностью работоспособный в день выпуска новой модели. Эта скорость не случайность — это показатель зрелости инфраструктуры.

Что означает поддержка в день выпуска

Традиционный паттерн: новая модель выпускается, сообщество ждёт дни или недели, чтобы её запустить. Архитектура модели нуждается в адаптации, параметры вывода нуждаются в настройке, скрипты обучения нуждаются в модификации.

Поддержка в день выпуска ломает этот цикл ожидания. Модель запускается, а сервис вывода и фреймворк RL-обучения уже готовы.

Сообщество может тестировать немедленно. Не нужно ждать кода адаптации — просто запускай. Для исследователей это означает более быструю валидацию производительности DeepSeek-V4 на реальных задачах.

RL-обучение может начаться сразу. Miles — это фреймворк крупномасштабного RL-обучения LMSYS. Поддержка в день выпуска означает, что конвейеры RLHF или DPO могут запуститься сразу после получения весов модели.

Комбинация SGLang + Miles

Эти два компонента работают вместе как скоординированный стек:

SGLang обслуживает вывод. Его непрерывная пакетная обработка и radix attention cache уже являются оптимизациями отраслевого уровня.

Miles занимается крупномасштабным RL-обучением. От PPO до DPO до новейшего GRPO, Miles охватывает основные парадигмы RL-обучения.

Вместе они формируют полный стек с открытым исходным кодом от вывода до обучения до развёртывания. Ключевая характеристика: отсутствие зависимости от любых закрытых компонентов.

Основные источники: