DeepSeek-V4 がリリースされた日、モデル自体の議論と並んで、静かだが重要な発表があった:SGLang と Miles が DeepSeek-V4 の推論と RL 訓練サポートを Day 0 で完了した。
2026 年 4 月 25 日のブログで LMSYS は書いた:「SGLang と Miles は、DeepSeek-V4 を発売日にサーブおよび訓練する初のオープンソーススタックを形成する」。
新しいモデルのリリース日に完全に稼働する初のオープンソーススタック。この速度は偶然ではない — インフラストラクチャの成熟度の指標だ。
Day-0 サポートが意味すること
従来のパターン:新しいモデルがリリースされ、コミュニティは数日または数週間待つ必要がある。モデルアーキテクチャの適応、推論パラメータの調整、訓練スクリプトの変更が必要だ。MoE モデルの場合、このプロセスはさらに複雑になる。
Day-0 サポートはこの待機サイクルを打破する。モデルがリリースされると、推論サービスと RL 訓練フレームワークがすでに準備されている。
コミュニティはすぐにテストできる。適応コードを待つ必要はない — すぐに実行できる。研究者にとって、これは「実行できるか?」という段階で止まるのではなく、DeepSeek-V4 の実際のタスクでのパフォーマンスをより早く検証できることを意味する。
RL 訓練はすぐに開始できる。Miles は LMSYS の大規模 RL 後訓練フレームワークだ。Day-0 サポートは、モデルの重みを取得した後、すぐに RLHF または DPO 訓練パイプラインを開始できることを意味する。
SGLang + Miles の組み合わせ
これら 2 つのコンポーネントは連携されたスタックとして機能する:
SGLang は推論サービスを担当する。連続バッチ処理と radix attention キャッシュはすでに業界標準レベルの最適化だ。
Miles は大規模 RL 後訓練を担当する。PPO から DPO から最新の GRPO まで、Miles は主流の RL 訓練パラダイムをカバーしている。
主要ソース: