LLM 的推理能力越来越强,但代价也越来越贵。为了让模型"想得更深",常见做法是增加采样次数或延长推理链——但这直接意味着更多的 Token、更高的成本、更慢的速度。
有没有办法既保持推理质量,又大幅降低成本?
5 月 14 日提交的一篇论文 Dual-Dimensional Consistency (DDC) 给出了一个让人眼前一亮的方案。
问题出在哪
现有的推理时缩放策略有两个通病:
宽度共识方法(采样多个候选然后投票)容易强化幻觉——如果大多数采样都走向同一个错误方向,投票机制反而会"确认"这个错误。
深度剪枝方法(提前终止过长的推理链)则可能过早截断那些复杂但正确的推理路径。
简单说:加宽怕幻觉,加深怕浪费。DDC 想同时解决这两个问题。
DDC 的做法
DDC 引入了两个核心组件:
置信度加权贝叶斯协议(Confidence-Weighted Bayesian Protocol):不是简单投票,而是根据每个推理路径的置信度进行加权聚合。这样即使多个路径走向同一个方向,如果置信度普遍偏低,系统也不会盲目确认。
趋势感知分层剪枝(Trend-Aware Stratified Pruning):不是一刀切地截断长推理链,而是分析推理质量的趋势。如果一条长链虽然还没出结果,但质量趋势在上升,就保留;如果趋势在下降,就果断剪掉。
这两个组件配合,形成了一个闭环:把计算资源集中在高质量的推理路径上,过滤幻觉的同时加速共识达成。
效果
在 5 个基准测试上,DDC 在保持或超越强基线精度的同时,将 Token 消耗降低了 10 倍以上(超过 10x reduction)。而且这个效果跨越了多种不同的 LLM。
10 倍这个数字在推理优化领域是很夸张的。通常能省 30-50% 就已经是值得发表的成果了。
作者
论文来自 Bo Li 和 Hang Yan 等研究者。2026 年 5 月 14 日提交。
实际意义
对于在生产环境中使用 LLM 做复杂推理的团队来说,DDC 的吸引力很直接:同样的预算,可以跑更多次推理;或者同样的推理次数,花更少的钱。
推理时缩放(inference-time scaling)是 2026 年最热的研究方向之一。OpenAI 的 o1/o3 系列、DeepSeek 的 R1、Google 的 Gemini Thinking 都用了类似思路。DDC 的贡献在于让这条路走得更经济。