C
ChaoBro

Cloudflare Workers AI 刷新模型目录:GLM-4.7-Flash 和 Gemma-4-26B 入场,旧模型 5 月底下线

Cloudflare Workers AI 刷新模型目录:GLM-4.7-Flash 和 Gemma-4-26B 入场,旧模型 5 月底下线

Cloudflare Workers AI 的模型目录换血了。

新的 GLM-4.7-Flash 和 Gemma-4-26B-A4B-IT 已经上架,旧的 Llama 和 Kimi 模型被标记为即将下线——5 月 30 日之后就不再可用。

如果你在用 Workers AI 跑推理,现在需要检查一下自己的模型依赖。

新模型:GLM-4.7-Flash 和 Gemma-4-26B-A4B-IT

GLM-4.7-Flash 来自智谱,定位是轻量级快速推理。Flash 系列的命名逻辑很清楚:牺牲一部分推理深度,换取速度和成本优势。如果你的场景是高频调用、对延迟敏感,Flash 是合适的选择。

Gemma-4-26B-A4B-IT 是 Google 的 Gemma 4 系列的 MoE 版本,260 亿总参数、40 亿激活参数,经过了 Instruction Tuning。这个模型的定位在"中小型模型里的强者"——参数量可控,但在指令遵循和代码能力上不弱于一些更大的模型。

旧模型下线的实际影响

被标记下线的旧版 Llama 和 Kimi 模型,具体是哪些版本 Cloudflare 没有在公告里列全。但如果你在项目里硬编码了模型名称(比如直接在代码里写 @cf/meta/llama-3-8b),5 月 30 日之后这些调用会直接报错。

建议做两件事:

  1. 检查 Workers AI 相关的代码,确认使用的模型名称
  2. 在 5 月 30 日前完成迁移——GLM-4.7-Flash 和 Gemma-4-26B 大概率可以直接替换旧 Llama 模型

为什么 Cloudflare 要频繁换模型

Workers AI 的模型目录更新节奏比大多数云厂商快。这不是 bug,是设计。

Cloudflare 做 Workers AI 的定位是"边缘推理平台"——不是训练平台,不是大模型托管平台,是让开发者在离用户最近的节点上跑推理。这意味着模型必须足够小、足够快、成本足够低。

当一个模型不再满足这三个条件中的任何一个,就会被替换。

对开发者的建议

如果你在做边缘端的 AI 应用(聊天机器人、内容审核、简单的文本生成),Workers AI 仍然是最便捷的选择之一。但你需要接受一个事实:模型不是你的资产,是平台提供的服务

这意味着你需要把模型名称抽象成配置项,而不是硬编码在业务逻辑里。当平台换模型时,你只需要改一行配置。

→ 延伸阅读:Cloudflare Agent Memory 技术 | OpenClaw Git Scan 争议


主要来源: