上线 48 小时,OpenRouter 排行榜第一。
这不是某个美国大模型的常规版本迭代,而是阶跃星辰(StepFun)开源的 Agent 基座模型 Step 3.5 Flash。名字里带着"Flash",跑起来也确实够快——两天内从发布到登顶,速度本身就在传递一个信号:Agent 赛道正在从"谁能做"变成"谁能做得又快又便宜"。
速度即武器
Step 3.5 Flash 的定位很明确:Agent 基座。不是通用聊天,不是代码补全,而是专门优化过多步推理、工具调用和任务规划能力的底座模型。
阶跃星辰在这件事上走了一条和多数国产模型不同的路。Qwen 3.6 在拼智力指数,DeepSeek V4 在拼成本比,Kimi K2.6 在拼长窗口编码——Step 3.5 Flash 直接说:我要做 Agent 的水电煤。
适配 MacBook 和手机端这件事值得多说一句。大多数 Agent 模型的测试环境还是云端的 H100 集群,但阶跃星辰把部署场景拉到了消费级设备上。不是噱头——如果一个 Agent 基座模型能在 MacBook 上跑通多步工具调用,那对于中小型团队来说,试错成本会大幅降低。
OpenRouter 登顶意味着什么
OpenRouter 的排行榜是社区用真金白银投票的结果。模型好不好,开发者用 API 调用次数说话。
Step 3.5 Flash 两天登顶,说明至少有一部分开发者已经在实际工作流中开始用它了。不过冷静看,OpenRouter 的排名受短期集中使用的影响很大——有可能是一批尝鲜者集中跑 benchmark,也可能是某个教程带火了用量。
我会在接下来一周持续观察它的用量走势。如果只是昙花一现的峰值,参考价值有限;如果能在一周后仍保持前列,那说明真实场景中确实有人在用。
和竞品比,差在哪
和同赛道的模型比,Step 3.5 Flash 的优势在于速度和端侧适配。劣势也很明显:参数规模和上下文窗口不如 Qwen 3.6 35B 和 DeepSeek V4,在复杂推理任务上的上限会有天花板。
但这恰恰是它的策略——不做全能选手,只做 Agent 场景的专项优化。就像短跑运动员和马拉松选手的区别,场景对了,优势就出来了。
我这边还没跑实测。等手上的 MacBook 跑完一轮工具调用测试,再补具体的延迟和准确率数据。至少从定位来看,Step 3.5 Flash 是今年国产模型里少有的"不拼参数拼场景"的路线。
主要来源:
- 阶跃星辰官方公告
- OpenRouter 排行榜数据