核心判断
MiniMax M2.7 不是又一个堆参数的模型。它的核心创新在于让模型深度参与自身的迭代训练——通过构建复杂 Agent Harness 驱动自身的强化学习,实现「自己训练自己」的进化循环。在 SWE-Pro 评测中已逼近 Claude Opus 水平,同时价格仅为 2.1 元/百万 token 输入。
这条「自我进化」路线如果持续有效,将大幅降低模型迭代的研发成本。
M2.7 的关键创新
自我进化机制
M2.7 的训练范式不同于传统的「人类标注 → 模型训练」循环:
传统范式:
人类设计任务 → 人类评估结果 → 人类调整模型 → 循环
M2.7 范式:
模型生成任务 → Agent 执行 → 模型评估 → 模型调整自身 → 循环
↑ ↓
└──────── 强化学习反馈 ──────────┘
模型不再是被动接受训练的对象,而是主动参与训练过程的设计者和执行者。
技术细节
| 维度 | 说明 |
|---|---|
| 训练范式 | Agent Harness 驱动的自身强化学习 |
| 编程能力 | SWE-Pro 逼近 Opus 水平 |
| Agent 能力 | 支持构建复杂多步 Agent 工作流 |
| 定价 | 输入 2.1 元/百万 token(约 $0.3/百万) |
| API 兼容 | OpenAI 兼容格式 |
编码能力对标
| 模型 | SWE-Pro 得分 | 价格 (输入/百万 token) | 性价比指数 |
|---|---|---|---|
| Claude Opus 4.7 | ~基准线 | ~$15-75 | 1.0x |
| MiniMax M2.7 | 逼近 Opus | ~$0.3 | 50x+ |
| DeepSeek V4 Pro | 优秀 | ~$0.55 (折扣后) | 27x |
| GPT-5.5 | 优秀 | ~$1.25 | 12x |
| Grok 3 | 良好 | ~$0.20 | 15x |
性价比指数 = SWE-Pro 得分 / 价格(相对值)。MiniMax M2.7 的性价比在当前主流模型中处于领先位置。
为什么这条路线值得关注
1. 降低模型迭代成本
传统大模型迭代需要大量人类标注数据和工程师调参。如果模型能「自己训练自己」,迭代成本可能呈指数级下降。
2. Agent 能力的正反馈循环
M2.7 的逻辑很直接:更强的 Agent 能力 → 更好的自我训练 → 更强的 Agent 能力。这个正反馈如果持续有效,模型能力可能以比预期更快的速度增长。
3. 价格战的持续信号
2.1 元/百万 token 的输入价格,在国产模型中也属于低价梯队。结合 SWE-Pro 上逼近 Opus 的表现,MiniMax 的策略很清晰:用极致性价比抢占 Agent 编码市场。
实测建议
适合用 M2.7 的场景
- SWE 类任务:bug 修复、代码重构、功能实现
- Agent 工作流:需要多步推理和工具调用的任务
- 成本敏感项目:预算有限但需要较强编码能力的场景
- 批量代码处理:大规模代码库的分析和改造
可能不适合的场景
- 创意写作:M2.7 的定位偏向编码和 Agent,创意能力可能不如专门优化的模型
- 安全关键应用:自我进化模型的可解释性和可控性需要进一步验证
- 需要极低延迟的场景:复杂 Agent Harness 可能增加推理延迟
快速测试
# 使用 OpenAI 兼容 API 测试
curl https://api.minimax.chat/v1/chat/completions \
-H "Content-Type: application/json" \
-H "Authorization: Bearer $MINIMAX_API_KEY" \
-d '{
"model": "MiniMax-M2.7",
"messages": [{"role": "user", "content": "解释这段代码的问题并修复..."}],
"max_tokens": 4096
}'
格局判断
MiniMax M2.7 代表的「自我进化」路线,如果效果被更多评测验证,可能成为 2026 年下半年模型竞争的一个重要方向。
目前中国大模型厂商的竞争已经从「拼参数」进入「拼架构效率 + 拼定价」阶段。MiniMax 选择用自我进化来降低训练成本、用低价来抢占市场,这条路线值得持续关注。
对于开发者来说,现在是用极低成本体验接近 Opus 级别编码能力的好时机——毕竟 2.1 元/百万 token 的价格,试错成本几乎可以忽略不计。