结论先行
社区开发者杨攀在 TGO 群发布的非官方编程模型体感评测,给出了一个与 benchmark 不完全一致的排名:
| 梯队 | 模型 | 体感定位 |
|---|---|---|
| 第一梯队 | GLM-5.1 ≈ Kimi K2.6 | 过 entry 线,可胜任日常开发 |
| 准第一梯队 | DeepSeek V4-Pro | 接近 entry 线,特定场景有优势 |
| 第二梯队 | Qwen 3.6-Max-Preview | 未过 entry 线,但性价比突出 |
| 第三梯队 | Mimo V2.5-Pro > Qwen 3.6-Plus > HY-3 > Grok 4.20 | 辅助编码可用 |
这个排名的核心价值在于:它来自真实项目中的日常使用体验,而非标准化 benchmark 的跑分结果。
评测方法论:什么是”体感”?
“体感评测”与 SWE-bench、HumanEval 等标准化测试的本质区别:
- benchmark:在固定数据集上跑分,测试的是模型在已知问题上的表现
- 体感:开发者在真实项目中与模型交互的主观体验,包含了错误恢复能力、上下文理解深度、代码风格一致性等难以量化的维度
评测者特别区分了”entry 梯队”的概念——能否独立完成一个中等复杂度模块的开发,而不需要开发者反复修正。这是从”辅助工具”到”合作者”的分水岭。
第一梯队:GLM-5.1 与 Kimi K2.6
GLM-5.1:架构理解力强
GLM-5.1 在体感评测中表现最突出的能力是对代码架构的理解。在处理涉及多个文件、模块间依赖关系的任务时,GLM-5.1 能给出结构合理的方案,而非简单地填充单个函数。
这与智谱在 GLM-5 系列中强化的长上下文能力直接相关——当模型能”看到”更多代码时,它对整个项目的理解自然更深。
Kimi K2.6:调试排错能力突出
Kimi K2.6 的优势在于调试场景。当开发者遇到报错、需要定位 bug 根源时,K2.6 的表现往往优于其他模型。它不仅指出错误位置,还会解释错误原因并给出修复建议。
这与月之暗面在 K2.6 中强化的推理链能力有关——调试本质上是一个逆向推理过程,需要模型从症状推导原因。
准第一梯队:DeepSeek V4-Pro 的定位
DeepSeek V4-Pro 被排在”没过 entry 梯队”,但评测者同时指出它在某些场景下有独特优势:
- 成本优势:75% API 折扣延续至 5 月 31 日,使用成本显著低于第一梯队
- 特定任务表现:在数据分析和数学计算相关的编码任务中,V4-Pro 的表现有时超越第一梯队
- 工具调用:DeepSeek V4 系列在 MCP 工具集成方面的成熟度较高
对于预算敏感的项目,V4-Pro 是一个”够用且省钱”的选择。
第二梯队及以下:性价比的博弈
Qwen 3.6-Max-Preview 虽然未过 entry 线,但考虑到它的 API 定价和多平台可用性,对于非核心代码生成场景(如注释生成、单元测试编写、文档整理)仍然有很高的性价比。
小米 Mimo V2.5-Pro 的上榜则说明了一个趋势:手机厂商的模型正在快速追赶。虽然目前只能在辅助场景中使用,但进步速度值得关注。
行动建议
根据你的实际需求选择:
| 使用场景 | 推荐模型 | 理由 |
|---|---|---|
| 日常开发主力 | GLM-5.1 或 Kimi K2.6 | 过 entry 线,可独立完成模块 |
| 调试排错 | Kimi K2.6 | 逆向推理能力强 |
| 成本控制 | DeepSeek V4-Pro | 75% 折扣 + 够用表现 |
| 辅助编码 | Qwen 3.6-Plus | 低成本的”副驾驶” |
| 移动端集成 | Mimo V2.5-Pro | 端侧部署友好 |
体感评测的意义不在于给出绝对排名,而在于提醒我们:benchmark 之外的真实体验同样重要。当多个模型在跑分上差距缩小到 5% 以内时,体感差异往往才是决定最终选择的关键因素。