DeepSeek-V4 发布那天,除了模型本身的讨论,还有一个不太起眼但意义不小的消息:SGLang 和 Miles 在 Day 0 就完成了对 DeepSeek-V4 的推理和 RL 训练支持。
LMSYS 在 4 月 25 日的博客里写道:「SGLang and Miles form the first open-source stack to serve and train DeepSeek-V4 on launch day」。
第一个开源栈在新模型发布当天实现全链路可用。这个速度不是巧合,是基础设施成熟度的体现。
Day-0 支持意味着什么
以往的模式是这样的:一个新模型发布,社区要等几天甚至几周才能把它跑起来。需要适配模型架构、调整推理参数、修改训练脚本。对于 MoE 架构的大模型,这个过程更复杂——专家路由、激活参数配置都需要专门处理。
Day-0 支持打破了这个等待周期。模型发布的同时,推理服务和 RL 训练框架已经就绪。这意味着:
社区可以立刻实测。不用等适配代码,直接用。对于研究者来说,这意味着可以更快验证 DeepSeek-V4 在实际任务中的表现,而不是卡在"能不能跑起来"这一步。
RL 训练可以马上开始。Miles 是 LMSYS 的大规模 RL 后训练框架。Day-0 支持意味着拿到模型权重后,就可以直接启动 RLHF 或 DPO 训练流程,不需要等待框架适配。
SGLang + Miles 的组合
这两个组件的配合不是临时拼凑的:
SGLang 负责推理服务。它的连续批处理(continuous batching)和 radix attention cache 已经是行业标准级别的优化。对 DeepSeek-V4 的支持意味着可以直接用 SGLang 部署 DeepSeek-V4 的推理服务。
Miles 负责大规模 RL 后训练。从 PPO 到 DPO 到最新的 GRPO,Miles 覆盖了主流 RL 训练范式。它的分布式训练架构设计就是为了千亿到万亿参数级别的模型。
两者结合,形成了一个完整的从推理到训练到部署的开源栈。这个栈的特点是不依赖任何闭源组件——从模型权重到推理引擎到训练框架,全部开源。
这个时间点的意义
DeepSeek-V4 是一个典型的开源旗舰模型——万亿参数 MoE 架构,性能对标前沿闭源模型。但开源模型的价值不只是权重公开,而是整个生态能不能快速跟上。
如果模型发布了,但推理框架要等两周、训练框架要等一个月,那这个模型的实际影响力会大打折扣。Day-0 支持缩短了从"发布"到"能用"的时间差。
这也是开源生态和闭源生态的一个关键差异点。OpenAI 发布 GPT 新版本,只有 OpenAI 自己能立刻用。DeepSeek 发布新版本,整个开源社区可以立刻用——前提是基础设施准备好了。
SGLang 和 Miles 的 Day-0 支持说明这个前提正在成立。
对后续模型发布的启示
有了这个先例,后续开源模型的发布节奏可能会改变。模型团队不再只需要发布权重,还需要和 SGLang、Miles 这样的基础设施团队提前协调,确保 Day-0 支持。
这有点像 Linux 内核新版本的硬件驱动支持——新 CPU 发布的同时,内核驱动已经准备好了。用户不需要自己编译驱动,开箱即用。
DeepSeek-V4 只是一个开始。下一个开源旗舰模型发布时,Day-0 支持可能会变成标准配置。
主要来源: