核心结论
智谱于 4 月初发布 GLM-5.1,定位为面向 AI Agent 的新一代旗舰模型。核心卖点不是在静态基准上的绝对分数,而是在长时序任务中的持续优化能力——模型在 600 次迭代中展现出持续改进的长程推理表现。这与 GLM-5 的”无周限额”套餐调整形成了鲜明对比:GLM-5 在收敛商业化,GLM-5.1 在开拓 Agent 新场景。
GLM-5.1 的技术亮点
长时序任务能力
GLM-5.1 的核心创新在于多轮迭代中的持续学习能力。传统模型在多轮 Agent 循环中容易出现”能力退化”——随着对话轮次增加,输出质量下降。GLM-5.1 通过优化架构,在 600 次迭代中保持了持续改进的态势。
| 能力维度 | GLM-5 | GLM-5.1 | 提升方向 |
|---|---|---|---|
| 长程推理 | 基准 | 显著增强 | 多步任务分解与回溯 |
| 迭代优化 | 有限 | 600 次持续改进 | Agent 自修正循环 |
| SWE-Bench Pro | 行业领先 | 进一步领先 | 代码修复任务 |
| Agent 工具调用 | 支持 | 增强 | 工具选择准确率 |
SWE-Bench Pro 领先
在 SWE-Bench Pro(软件工程基准测试的专业版)中,GLM-5.1 的表现处于行业第一梯队。这个基准测试模拟真实的代码修复场景——给定一个 GitHub issue 和代码库,模型需要理解问题、定位代码、提出修复方案。
对于 Agent 场景而言,SWE-Bench Pro 是一个比传统问答基准更有意义的指标,因为它衡量的是:
- 理解复杂代码库的能力
- 多步推理(定位→分析→修复→验证)
- 工具使用(搜索、阅读、编辑、测试)
为什么重要
国产模型在 Agent 赛道的差异化
在国产大模型竞争中,各家正在寻找差异化定位:
| 厂商 | 核心定位 | 优势场景 |
|---|---|---|
| DeepSeek | 极致性价比 | 大规模 API 调用、长文本 |
| Kimi/月之暗面 | 长上下文 + 搜索增强 | 信息检索、知识整理 |
| MiniMax | 多模态 + 安全 | 内容创作、安全敏感场景 |
| 智谱 GLM | Agent + 代码 | 编程辅助、自动化工作流 |
GLM-5.1 的发布进一步强化了智谱在 Agent + 代码赛道的定位。长时序任务的持续优化能力是 Agent 场景的核心需求——一个能持续工作数百轮而不退化的模型,比在单轮对话中表现优异的模型更有实用价值。
GLM-5 商业化 vs GLM-5.1 技术
值得注意的是,智谱同时在做两件事:
- GLM-5 商业化收敛:停止”无周限额”老套餐,转向更精细化的定价策略
- GLM-5.1 技术突破:在 Agent 长时序能力上建立技术壁垒
这种”一边收紧旧产品,一边推出新产品”的策略在国产模型厂商中越来越常见——在价格战中通过产品迭代维持利润率。
与竞品的对比
长时序 Agent 能力
| 模型 | 迭代稳定性 | 600+ 轮退化程度 | Agent 场景适配 |
|---|---|---|---|
| GLM-5.1 | 持续改进 | 最小 | 高 |
| Claude Sonnet 4.6 | 稳定 | 低 | 高 |
| GPT-5.5 | 中等 | 中等 | 中等 |
| Qwen 3.5 | 良好 | 低 | 中高 |
| Kimi K2.5 | 良好 | 低 | 中高 |
定价参考
智谱的定价策略从”无周限额”转向了更结构化的套餐:
| 套餐 | 月费 | 适用场景 |
|---|---|---|
| 新套餐(原无周限额用户) | 按量计费 | 高频 Agent 使用 |
| 标准套餐 | 按月订阅 | 日常开发辅助 |
| 免费试用 | 有限额度 | 评估和测试 |
注意:智谱已于 4 月 30 日停止 GLM Coding Plan 无周限额老套餐的自动续订,受影响用户获赠 2 个月新套餐权益。
行动建议
适合使用 GLM-5.1 的场景
- Agent 驱动的代码修复:需要在大型代码库中持续工作、多步推理的场景
- 长时序自动化工作流:需要模型在多轮交互中保持一致性和改进趋势的任务
- SWE-Bench 类评测任务:需要高准确率代码理解和修复能力的场景
测试策略
- 先做 600 轮压力测试:GLM-5.1 的核心卖点是长时序稳定性,应该用大量迭代来验证这一能力
- 对比 SWE-Bench Pro 表现:如果你的团队关注代码质量,用实际的代码修复任务对比 GLM-5.1 和其他模型
- 评估工具调用准确率:Agent 场景中工具调用的准确性直接影响任务完成率
迁移建议
- GLM-5 用户:如果你之前使用无周限额套餐,注意 4 月 30 日后已停止自动续订,你已获得 2 个月新套餐权益。建议用这段时间测试 GLM-5.1
- 新开发者:GLM-5.1 是智谱当前在 Agent 赛道的技术前沿,值得作为国产 Agent 模型的备选方案之一
- 预算敏感用户:关注智谱的定价调整,新套餐可能比老的无周限额更贵,需要评估 ROI