当开源模型的 Agent 能力追平了闭源模型,竞争就转移到了一个新的维度:谁花更少的钱,干同样的活。
MiMo-V2.5 在这一点上给出了一个让同行尴尬的数字。
数据
在 ClawEval 标准 Agent 任务中的表现:
| 模型 | 单轨迹 Token 消耗 | Pass³ 通过率 |
|---|---|---|
| MiMo-V2.5-Pro | ~7 万 | 64% |
| Claude Opus 4.6 | 12-18 万 | 相当 |
| Gemini 3.1 Pro | 12-18 万 | - |
| GPT-5.4 | 12-18 万 | 相当 |
同样的 Agent 能力,MiMo 消耗的 Token 比竞品少 40%-60%。
这意味着什么?如果你的 Agent 系统每天要跑 1000 次任务,用 MiMo 的 Token 成本大约是用 Claude 的三分之一到一半。
为什么 Token 效率重要
很多人只看模型的”能力”和”准确率”,忽略了”成本”。但 Agent 场景的特殊性在于:
一次任务 = N 次工具调用 = N × Token 消耗
不像简单的一次问答(输入一次,输出一次),Agent 需要反复调用搜索、代码执行、文件读写等工具。每调用一次工具,模型的上下文就增长一段。如果模型需要 18 万 Token 才能完成任务,而另一个模型用 7 万 Token 就能完成——差距会按调用次数放大。
MiMo-V2.5 的 Token 效率优势来自两个层面:
- 更精准的决策:减少不必要的工具调用和重复推理
- 更紧凑的上下文管理:不浪费 Token 在无关信息上
加上 1M 上下文窗口
两个模型(Pro 和标准版)都标配了 1M 上下文窗口。结合 Token 效率来看——你能在同样的预算下,跑更长的任务、处理更多的上下文、做更多的迭代。
这对于 RAG 应用(需要把大量文档塞进上下文)和长周期 Agent 任务(需要维持长时间的历史记录)尤其有意义。
局限
- 这是单一基准(ClawEval)的数据,不同任务的 Token 效率比可能有差异
- 12-18 万 Token 是竞品的大致范围,不是精确测试值
- 实际成本还取决于部署环境(本地 GPU vs API 调用)