OpenDeepThink：用"投票"代替"判断"，把 Gemini 的 Codeforces 水平拉高 405 分

让 LLM 自己给自己打分，但它真的靠谱吗？

推理能力的提升，过去一年的主流思路是"想得更深"——让模型在一个推理路径上走得更远。o1 系列的思考链、各种 test-time compute scaling 方法，本质上都是这一路线。

但 OpenDeepThink 问了一个更朴素的问题：如果你想得不够深，能不能多想几个方向，然后选一个最好的？

答案是能。但问题在于——你怎么选？

当你并生成 50 个候选答案时，你需要一个裁判来选出最好的那个。

直觉上，让 LLM 自己当裁判就行了。但论文指出了关键问题：逐点判断（pointwise judging）又吵又有偏。 给单个答案打分，LLM 的标准不稳定，对措辞敏感，容易被表面流畅性误导。

OpenDeepThink 的解法是用 Bradley-Terry 模型——一个源自体育竞技排名的统计学方法。不直接给答案打分，而是让模型做两两比较："A 和 B，哪个更好？"然后把所有比较结果汇总成全局排名。

这就像是把"评委给分"变成了"选手互搏"——每两个答案打一场比赛，胜者加分，最后按积分排名。

排名选出 top 候选人后，系统不是简单地保留它们。top 75% 的候选答案会被"变异"——用比较过程中产生的自然语言批评作为修改指令。bottom 25% 直接淘汰。

下一轮，新的候选集再次进入两两比较、排名、变异的循环。

整个过程重复 8 轮，约 27 分钟墙钟时间。结果：Gemini 3.1 Pro 的 Codeforces Elo 从基线提升了 405 分。

论文在 HLE（Hard Long-Eval）多领域基准上发现了一个值得警惕的模式：增益集中在客观可验证的领域，在主观领域甚至出现反向效果。

这暗示了 Bradley-Terry 比较的核心依赖——比较本身要有客观标准。如果答案没有明确的"好"与"坏"，两两比较反而会引入噪声。

论文同时发布了一个精心策划的 Codeforces 评测集：73 道题目，每道都由国际特级大师（International Grandmaster）标注，本地评估与官方判定的协议一致率达到 99%。

对于做 reasoning benchmark 的人来说，这个数据集比大多数公开 benchmark 更可靠——因为标注者是真正写得出这些题的人。

OpenDeepThink 的一个亮点是 pipeline 可以跨不同强度的模型迁移，不需要重新调参。这意味着它不是针对某个特定模型的 trick，而是一个通用的推理框架。

OpenDeepThink 的核心贡献不是某个具体技术突破，而是一个思考角度的转换：当"想得更深"遇到瓶颈时，"想得更广"+"选得更好"可能是一条性价比更高的路径。

Bradley-Terry 比较替代逐点判断的思路，对任何需要 LLM 自我评估的场景都有启发价值——从代码生成到论文评审，从方案选择到对话质量控制。

主要来源：