让 LLM 自己给自己打分,但它真的靠谱吗?
推理能力的提升,过去一年的主流思路是"想得更深"——让模型在一个推理路径上走得更远。o1 系列的思考链、各种 test-time compute scaling 方法,本质上都是这一路线。
但 OpenDeepThink 问了一个更朴素的问题:如果你想得不够深,能不能多想几个方向,然后选一个最好的?
答案是能。但问题在于——你怎么选?
选择瓶颈:为什么"挑最好的"比"想一个"更难
当你并生成 50 个候选答案时,你需要一个裁判来选出最好的那个。
直觉上,让 LLM 自己当裁判就行了。但论文指出了关键问题:逐点判断(pointwise judging)又吵又有偏。 给单个答案打分,LLM 的标准不稳定,对措辞敏感,容易被表面流畅性误导。
OpenDeepThink 的解法是用 Bradley-Terry 模型——一个源自体育竞技排名的统计学方法。不直接给答案打分,而是让模型做两两比较:"A 和 B,哪个更好?"然后把所有比较结果汇总成全局排名。
这就像是把"评委给分"变成了"选手互搏"——每两个答案打一场比赛,胜者加分,最后按积分排名。
演化式迭代
排名选出 top 候选人后,系统不是简单地保留它们。top 75% 的候选答案会被"变异"——用比较过程中产生的自然语言批评作为修改指令。bottom 25% 直接淘汰。
下一轮,新的候选集再次进入两两比较、排名、变异的循环。
整个过程重复 8 轮,约 27 分钟墙钟时间。结果:Gemini 3.1 Pro 的 Codeforces Elo 从基线提升了 405 分。
一个有趣的发现:客观题有效,主观题反向
论文在 HLE(Hard Long-Eval)多领域基准上发现了一个值得警惕的模式:增益集中在客观可验证的领域,在主观领域甚至出现反向效果。
这暗示了 Bradley-Terry 比较的核心依赖——比较本身要有客观标准。如果答案没有明确的"好"与"坏",两两比较反而会引入噪声。
CF-73 数据集
论文同时发布了一个精心策划的 Codeforces 评测集:73 道题目,每道都由国际特级大师(International Grandmaster)标注,本地评估与官方判定的协议一致率达到 99%。
对于做 reasoning benchmark 的人来说,这个数据集比大多数公开 benchmark 更可靠——因为标注者是真正写得出这些题的人。
跨模型迁移
OpenDeepThink 的一个亮点是 pipeline 可以跨不同强度的模型迁移,不需要重新调参。这意味着它不是针对某个特定模型的 trick,而是一个通用的推理框架。
评价
OpenDeepThink 的核心贡献不是某个具体技术突破,而是一个思考角度的转换:当"想得更深"遇到瓶颈时,"想得更广"+"选得更好"可能是一条性价比更高的路径。
Bradley-Terry 比较替代逐点判断的思路,对任何需要 LLM 自我评估的场景都有启发价值——从代码生成到论文评审,从方案选择到对话质量控制。
主要来源:
- arXiv:2605.15177 OpenDeepThink
- Shang Zhou, Wenhao Chai, Kaiyuan Liu, Huanzhi Mao, Qiuyang Mang, Jingbo Shang 等