SGLang と Miles が DeepSeek-V4 のDay-0 推論とRL訓練をサポート

DeepSeek-V4 がリリースされた日、モデル自体の議論と並んで、静かだが重要な発表があった：SGLang と Miles が DeepSeek-V4 の推論と RL 訓練サポートを Day 0 で完了した。

2026 年 4 月 25 日のブログで LMSYS は書いた：「SGLang と Miles は、DeepSeek-V4 を発売日にサーブおよび訓練する初のオープンソーススタックを形成する」。

新しいモデルのリリース日に完全に稼働する初のオープンソーススタック。この速度は偶然ではない — インフラストラクチャの成熟度の指標だ。

Day-0 サポートが意味すること

従来のパターン：新しいモデルがリリースされ、コミュニティは数日または数週間待つ必要がある。モデルアーキテクチャの適応、推論パラメータの調整、訓練スクリプトの変更が必要だ。MoE モデルの場合、このプロセスはさらに複雑になる。

Day-0 サポートはこの待機サイクルを打破する。モデルがリリースされると、推論サービスと RL 訓練フレームワークがすでに準備されている。

コミュニティはすぐにテストできる。適応コードを待つ必要はない — すぐに実行できる。研究者にとって、これは「実行できるか？」という段階で止まるのではなく、DeepSeek-V4 の実際のタスクでのパフォーマンスをより早く検証できることを意味する。

RL 訓練はすぐに開始できる。Miles は LMSYS の大規模 RL 後訓練フレームワークだ。Day-0 サポートは、モデルの重みを取得した後、すぐに RLHF または DPO 訓練パイプラインを開始できることを意味する。

これら 2 つのコンポーネントは連携されたスタックとして機能する：

SGLang は推論サービスを担当する。連続バッチ処理と radix attention キャッシュはすでに業界標準レベルの最適化だ。

Miles は大規模 RL 後訓練を担当する。PPO から DPO から最新の GRPO まで、Miles は主流の RL 訓練パラダイムをカバーしている。

主要ソース：