智谱 GLM-5.1 发布：600 次迭代持续优化，长时序 Agent 任务的国产新选择

核心结论

智谱于 4 月初发布 GLM-5.1，定位为面向 AI Agent 的新一代旗舰模型。核心卖点不是在静态基准上的绝对分数，而是在长时序任务中的持续优化能力——模型在 600 次迭代中展现出持续改进的长程推理表现。这与 GLM-5 的”无周限额”套餐调整形成了鲜明对比：GLM-5 在收敛商业化，GLM-5.1 在开拓 Agent 新场景。

GLM-5.1 的技术亮点

长时序任务能力

GLM-5.1 的核心创新在于多轮迭代中的持续学习能力。传统模型在多轮 Agent 循环中容易出现”能力退化”——随着对话轮次增加，输出质量下降。GLM-5.1 通过优化架构，在 600 次迭代中保持了持续改进的态势。

能力维度	GLM-5	GLM-5.1	提升方向
长程推理	基准	显著增强	多步任务分解与回溯
迭代优化	有限	600 次持续改进	Agent 自修正循环
SWE-Bench Pro	行业领先	进一步领先	代码修复任务
Agent 工具调用	支持	增强	工具选择准确率

SWE-Bench Pro 领先

在 SWE-Bench Pro（软件工程基准测试的专业版）中，GLM-5.1 的表现处于行业第一梯队。这个基准测试模拟真实的代码修复场景——给定一个 GitHub issue 和代码库，模型需要理解问题、定位代码、提出修复方案。

对于 Agent 场景而言，SWE-Bench Pro 是一个比传统问答基准更有意义的指标，因为它衡量的是：

理解复杂代码库的能力
多步推理（定位→分析→修复→验证）
工具使用（搜索、阅读、编辑、测试）

为什么重要

国产模型在 Agent 赛道的差异化

在国产大模型竞争中，各家正在寻找差异化定位：

厂商	核心定位	优势场景
DeepSeek	极致性价比	大规模 API 调用、长文本
Kimi/月之暗面	长上下文 + 搜索增强	信息检索、知识整理
MiniMax	多模态 + 安全	内容创作、安全敏感场景
智谱 GLM	Agent + 代码	编程辅助、自动化工作流

GLM-5.1 的发布进一步强化了智谱在 Agent + 代码赛道的定位。长时序任务的持续优化能力是 Agent 场景的核心需求——一个能持续工作数百轮而不退化的模型，比在单轮对话中表现优异的模型更有实用价值。

GLM-5 商业化 vs GLM-5.1 技术

值得注意的是，智谱同时在做两件事：

GLM-5 商业化收敛：停止”无周限额”老套餐，转向更精细化的定价策略
GLM-5.1 技术突破：在 Agent 长时序能力上建立技术壁垒

这种”一边收紧旧产品，一边推出新产品”的策略在国产模型厂商中越来越常见——在价格战中通过产品迭代维持利润率。

与竞品的对比

长时序 Agent 能力

模型	迭代稳定性	600+ 轮退化程度	Agent 场景适配
GLM-5.1	持续改进	最小	高
Claude Sonnet 4.6	稳定	低	高
GPT-5.5	中等	中等	中等
Qwen 3.5	良好	低	中高
Kimi K2.5	良好	低	中高

定价参考

智谱的定价策略从”无周限额”转向了更结构化的套餐：

套餐	月费	适用场景
新套餐（原无周限额用户）	按量计费	高频 Agent 使用
标准套餐	按月订阅	日常开发辅助
免费试用	有限额度	评估和测试

注意：智谱已于 4 月 30 日停止 GLM Coding Plan 无周限额老套餐的自动续订，受影响用户获赠 2 个月新套餐权益。

行动建议

适合使用 GLM-5.1 的场景

Agent 驱动的代码修复：需要在大型代码库中持续工作、多步推理的场景
长时序自动化工作流：需要模型在多轮交互中保持一致性和改进趋势的任务
SWE-Bench 类评测任务：需要高准确率代码理解和修复能力的场景

测试策略

先做 600 轮压力测试：GLM-5.1 的核心卖点是长时序稳定性，应该用大量迭代来验证这一能力
对比 SWE-Bench Pro 表现：如果你的团队关注代码质量，用实际的代码修复任务对比 GLM-5.1 和其他模型
评估工具调用准确率：Agent 场景中工具调用的准确性直接影响任务完成率

迁移建议

GLM-5 用户：如果你之前使用无周限额套餐，注意 4 月 30 日后已停止自动续订，你已获得 2 个月新套餐权益。建议用这段时间测试 GLM-5.1
新开发者：GLM-5.1 是智谱当前在 Agent 赛道的技术前沿，值得作为国产 Agent 模型的备选方案之一
预算敏感用户：关注智谱的定价调整，新套餐可能比老的无周限额更贵，需要评估 ROI