阶跃星辰 Step 3.5 Flash 两天登顶 OpenRouter：Agent 基座模型的速度战

上线 48 小时，OpenRouter 排行榜第一。

这不是某个美国大模型的常规版本迭代，而是阶跃星辰（StepFun）开源的 Agent 基座模型 Step 3.5 Flash。名字里带着"Flash"，跑起来也确实够快——两天内从发布到登顶，速度本身就在传递一个信号：Agent 赛道正在从"谁能做"变成"谁能做得又快又便宜"。

速度即武器

Step 3.5 Flash 的定位很明确：Agent 基座。不是通用聊天，不是代码补全，而是专门优化过多步推理、工具调用和任务规划能力的底座模型。

阶跃星辰在这件事上走了一条和多数国产模型不同的路。Qwen 3.6 在拼智力指数，DeepSeek V4 在拼成本比，Kimi K2.6 在拼长窗口编码——Step 3.5 Flash 直接说：我要做 Agent 的水电煤。

适配 MacBook 和手机端这件事值得多说一句。大多数 Agent 模型的测试环境还是云端的 H100 集群，但阶跃星辰把部署场景拉到了消费级设备上。不是噱头——如果一个 Agent 基座模型能在 MacBook 上跑通多步工具调用，那对于中小型团队来说，试错成本会大幅降低。

OpenRouter 的排行榜是社区用真金白银投票的结果。模型好不好，开发者用 API 调用次数说话。

Step 3.5 Flash 两天登顶，说明至少有一部分开发者已经在实际工作流中开始用它了。不过冷静看，OpenRouter 的排名受短期集中使用的影响很大——有可能是一批尝鲜者集中跑 benchmark，也可能是某个教程带火了用量。

我会在接下来一周持续观察它的用量走势。如果只是昙花一现的峰值，参考价值有限；如果能在一周后仍保持前列，那说明真实场景中确实有人在用。

和同赛道的模型比，Step 3.5 Flash 的优势在于速度和端侧适配。劣势也很明显：参数规模和上下文窗口不如 Qwen 3.6 35B 和 DeepSeek V4，在复杂推理任务上的上限会有天花板。

但这恰恰是它的策略——不做全能选手，只做 Agent 场景的专项优化。就像短跑运动员和马拉松选手的区别，场景对了，优势就出来了。

我这边还没跑实测。等手上的 MacBook 跑完一轮工具调用测试，再补具体的延迟和准确率数据。至少从定位来看，Step 3.5 Flash 是今年国产模型里少有的"不拼参数拼场景"的路线。

主要来源：