SGLang 和 Miles 在 DeepSeek-V4 发布当天完成推理和 RL 训练支持

DeepSeek-V4 发布那天，除了模型本身的讨论，还有一个不太起眼但意义不小的消息：SGLang 和 Miles 在 Day 0 就完成了对 DeepSeek-V4 的推理和 RL 训练支持。

LMSYS 在 4 月 25 日的博客里写道：「SGLang and Miles form the first open-source stack to serve and train DeepSeek-V4 on launch day」。

第一个开源栈在新模型发布当天实现全链路可用。这个速度不是巧合，是基础设施成熟度的体现。

Day-0 支持意味着什么

以往的模式是这样的：一个新模型发布，社区要等几天甚至几周才能把它跑起来。需要适配模型架构、调整推理参数、修改训练脚本。对于 MoE 架构的大模型，这个过程更复杂——专家路由、激活参数配置都需要专门处理。

Day-0 支持打破了这个等待周期。模型发布的同时，推理服务和 RL 训练框架已经就绪。这意味着：

社区可以立刻实测。不用等适配代码，直接用。对于研究者来说，这意味着可以更快验证 DeepSeek-V4 在实际任务中的表现，而不是卡在"能不能跑起来"这一步。

RL 训练可以马上开始。Miles 是 LMSYS 的大规模 RL 后训练框架。Day-0 支持意味着拿到模型权重后，就可以直接启动 RLHF 或 DPO 训练流程，不需要等待框架适配。

这两个组件的配合不是临时拼凑的：

SGLang 负责推理服务。它的连续批处理（continuous batching）和 radix attention cache 已经是行业标准级别的优化。对 DeepSeek-V4 的支持意味着可以直接用 SGLang 部署 DeepSeek-V4 的推理服务。

Miles 负责大规模 RL 后训练。从 PPO 到 DPO 到最新的 GRPO，Miles 覆盖了主流 RL 训练范式。它的分布式训练架构设计就是为了千亿到万亿参数级别的模型。

两者结合，形成了一个完整的从推理到训练到部署的开源栈。这个栈的特点是不依赖任何闭源组件——从模型权重到推理引擎到训练框架，全部开源。

DeepSeek-V4 是一个典型的开源旗舰模型——万亿参数 MoE 架构，性能对标前沿闭源模型。但开源模型的价值不只是权重公开，而是整个生态能不能快速跟上。

如果模型发布了，但推理框架要等两周、训练框架要等一个月，那这个模型的实际影响力会大打折扣。Day-0 支持缩短了从"发布"到"能用"的时间差。

这也是开源生态和闭源生态的一个关键差异点。OpenAI 发布 GPT 新版本，只有 OpenAI 自己能立刻用。DeepSeek 发布新版本，整个开源社区可以立刻用——前提是基础设施准备好了。

SGLang 和 Miles 的 Day-0 支持说明这个前提正在成立。

有了这个先例，后续开源模型的发布节奏可能会改变。模型团队不再只需要发布权重，还需要和 SGLang、Miles 这样的基础设施团队提前协调，确保 Day-0 支持。

这有点像 Linux 内核新版本的硬件驱动支持——新 CPU 发布的同时，内核驱动已经准备好了。用户不需要自己编译驱动，开箱即用。

DeepSeek-V4 只是一个开始。下一个开源旗舰模型发布时，Day-0 支持可能会变成标准配置。

主要来源：