Cloudflare Workers AI 刷新模型目录：GLM-4.7-Flash 和 Gemma-4-26B 入场，旧模型 5 月底下线

Cloudflare Workers AI 的模型目录换血了。

新的 GLM-4.7-Flash 和 Gemma-4-26B-A4B-IT 已经上架，旧的 Llama 和 Kimi 模型被标记为即将下线——5 月 30 日之后就不再可用。

如果你在用 Workers AI 跑推理，现在需要检查一下自己的模型依赖。

新模型：GLM-4.7-Flash 和 Gemma-4-26B-A4B-IT

GLM-4.7-Flash 来自智谱，定位是轻量级快速推理。Flash 系列的命名逻辑很清楚：牺牲一部分推理深度，换取速度和成本优势。如果你的场景是高频调用、对延迟敏感，Flash 是合适的选择。

Gemma-4-26B-A4B-IT 是 Google 的 Gemma 4 系列的 MoE 版本，260 亿总参数、40 亿激活参数，经过了 Instruction Tuning。这个模型的定位在"中小型模型里的强者"——参数量可控，但在指令遵循和代码能力上不弱于一些更大的模型。

被标记下线的旧版 Llama 和 Kimi 模型，具体是哪些版本 Cloudflare 没有在公告里列全。但如果你在项目里硬编码了模型名称（比如直接在代码里写 @cf/meta/llama-3-8b），5 月 30 日之后这些调用会直接报错。

建议做两件事：

Workers AI 的模型目录更新节奏比大多数云厂商快。这不是 bug，是设计。

Cloudflare 做 Workers AI 的定位是"边缘推理平台"——不是训练平台，不是大模型托管平台，是让开发者在离用户最近的节点上跑推理。这意味着模型必须足够小、足够快、成本足够低。

当一个模型不再满足这三个条件中的任何一个，就会被替换。

如果你在做边缘端的 AI 应用（聊天机器人、内容审核、简单的文本生成），Workers AI 仍然是最便捷的选择之一。但你需要接受一个事实：模型不是你的资产，是平台提供的服务。

这意味着你需要把模型名称抽象成配置项，而不是硬编码在业务逻辑里。当平台换模型时，你只需要改一行配置。

主要来源：