Dual-Dimensional Consistency：让推理时缩放省 10 倍 Token 的新方法

LLM 的推理能力越来越强，但代价也越来越贵。为了让模型"想得更深"，常见做法是增加采样次数或延长推理链——但这直接意味着更多的 Token、更高的成本、更慢的速度。

有没有办法既保持推理质量，又大幅降低成本？

5 月 14 日提交的一篇论文 Dual-Dimensional Consistency (DDC) 给出了一个让人眼前一亮的方案。

问题出在哪

现有的推理时缩放策略有两个通病：

宽度共识方法（采样多个候选然后投票）容易强化幻觉——如果大多数采样都走向同一个错误方向，投票机制反而会"确认"这个错误。

深度剪枝方法（提前终止过长的推理链）则可能过早截断那些复杂但正确的推理路径。

简单说：加宽怕幻觉，加深怕浪费。DDC 想同时解决这两个问题。

DDC 引入了两个核心组件：

置信度加权贝叶斯协议（Confidence-Weighted Bayesian Protocol）：不是简单投票，而是根据每个推理路径的置信度进行加权聚合。这样即使多个路径走向同一个方向，如果置信度普遍偏低，系统也不会盲目确认。
趋势感知分层剪枝（Trend-Aware Stratified Pruning）：不是一刀切地截断长推理链，而是分析推理质量的趋势。如果一条长链虽然还没出结果，但质量趋势在上升，就保留；如果趋势在下降，就果断剪掉。

这两个组件配合，形成了一个闭环：把计算资源集中在高质量的推理路径上，过滤幻觉的同时加速共识达成。

在 5 个基准测试上，DDC 在保持或超越强基线精度的同时，将 Token 消耗降低了 10 倍以上（超过 10x reduction）。而且这个效果跨越了多种不同的 LLM。

10 倍这个数字在推理优化领域是很夸张的。通常能省 30-50% 就已经是值得发表的成果了。

论文来自 Bo Li 和 Hang Yan 等研究者。2026 年 5 月 14 日提交。

对于在生产环境中使用 LLM 做复杂推理的团队来说，DDC 的吸引力很直接：同样的预算，可以跑更多次推理；或者同样的推理次数，花更少的钱。

推理时缩放（inference-time scaling）是 2026 年最热的研究方向之一。OpenAI 的 o1/o3 系列、DeepSeek 的 R1、Google 的 Gemini Thinking 都用了类似思路。DDC 的贡献在于让这条路走得更经济。