C
ChaoBro

Qwen3.6-27B 刷爆 AIME25 满分榜:开源数学推理的新分水岭

Qwen3.6-27B 刷爆 AIME25 满分榜:开源数学推理的新分水岭

发生了什么

社区评测者 @nanowell 在 X 平台公布了一组令人瞩目的数据:

Qwen3.6-27B 在 AIME25 数学竞赛基准上达到 100% 准确率。

AIME(American Invitational Mathematics Examination)是美国数学邀请赛,AIME25 是基于该赛事构建的 AI 数学推理基准测试,题目难度远超普通高中数学,涉及组合数学、数论、几何等高阶推理能力。

评测者同时指出:

“Qwen3.6 27B is one of the few open models that can reach 100% accuracy on AIME25. The model seems to have been particularly fine-tuned for this type of tasks. It’s much better than Qwen3.5 on average.”

数据对比:Qwen3.6 vs Qwen3.5

维度Qwen3.5 系列Qwen3.6-27B变化
AIME25~72%100%+28pp
模型规模32B-72B 多档27B更小但更强
数学推理通用微调针对性强化专项调优
开源可用性部分权重全权重开源更开放

关键信号

  1. 27B 规模做到满分:这意味着中等规模的开源模型在特定领域已经可以匹敌甚至超越数百亿参数的闭源模型
  2. 针对性调优效果显著:阿里显然在 Qwen3.6 的训练管线中加入了专门的数学推理增强阶段
  3. 平均性能也超越前代:不仅是数学,Qwen3.6 在整体基准上相比 Qwen3.5 也有明显提升

技术路径推测

Qwen3.6-27B 在数学推理上的突破可能来自以下几个技术方向:

1. GRPO 强化学习调优

阿里此前公开了 Qwen 在 GRPO(Group Relative Policy Optimization)方向的研究。GRPO 是一种针对推理任务的强化学习算法,相比传统 RLHF 更适合数学等需要多步推理的场景。

2. 思考 Token 优化

Qwen 团队在思考 Token(think token)的优化上做了大量工作。通过精细控制推理过程中”思考”与”输出”的比例,模型可以在保持回答质量的同时减少推理延迟。

3. 合成数据蒸馏

利用更大规模模型(如 Qwen3.6-Max)生成高质量的数学推理链,然后蒸馏到 27B 模型中。这种”教师-学生”蒸馏策略在数学推理任务上效果尤为显著。

开源生态影响

Qwen3.6-27B AIME25 满分的意义不仅在于一个跑分数字:

对开发者

  • 本地部署可行性:27B 模型在消费级 GPU(如 RTX 4090 24GB)上可以运行,意味着企业可以在本地获得顶级的数学推理能力
  • 成本效益比:相比调用闭源 API,本地运行 27B 模型在大规模推理场景下成本更低

对行业

  • 开源 vs 闭源的差距缩小:在数学推理这个传统上闭源模型领先的领域,开源模型已经追平甚至反超
  • 专业化趋势:未来的竞争不仅是”全能型”模型的比拼,更是”领域专精”模型的竞赛

对国产模型生态

Qwen3.6 的持续迭代巩固了阿里在国产大模型第一梯队的位置。加上此前 Qwen3.6-Max Preview 在 SWE-bench 上的表现,阿里正在构建从代码到数学的全方位开源模型矩阵。

格局判断

Qwen3.6-27B 的 AIME25 满分释放了三个明确信号:

  1. 模型规模不再是性能的决定性因素——27B 可以打败更大的模型,关键在于训练策略
  2. 数学推理正在成为模型能力的新试金石——代码能力之后,数学推理成为区分模型档次的新标准
  3. 开源模型的”针对性强化”路线正在奏效——与其追求面面俱到,不如在关键领域做到极致

行动建议

  1. 数学密集型应用优先测试 Qwen3.6-27B:教育、科研、金融建模等场景中,该模型的性价比极高
  2. 关注后续 Qwen3.6 系列的其他规模版本:如果 27B 已经做到满分,那么更大的 35B 和更小的 4B/7B 版本值得持续关注
  3. 结合本地推理框架部署:配合 LM Studio、Ollama 等本地推理工具,可以零成本获得顶级数学推理能力
  4. 对比测试 Kimi K2.6 和 DeepSeek V4:同为国产开源模型,三者之间的数学推理能力对比将为选型提供直接参考

开源数学推理的新分水岭已经到来。Qwen3.6-27B 证明了:中等规模 + 精准调优 = 顶级性能。