Oxford/LLNL 链式推理基准：GPT 单项 95.7%，串联后暴跌至 9.83%

结论

牛津大学与劳伦斯利弗莫尔国家实验室（LLNL）联合发布了一项关于长链条推理能力的基准研究。研究使用 GPT 5.2 作为测试对象，发现在单项问题上模型解决率高达 95.7%，但将相同问题串联为多步骤任务后，准确率暴跌至 9.83%。

这一结果揭示了当前 AI 模型的核心瓶颈：单体能力强大，但多步骤串联时误差累积导致系统级失败。研究团队指出，这不是一个能通过简单优化修复的问题。

研究团队选取了一组 GPT 5.2 能以 95.7% 准确率独立解决的问题。随后，他们将这些问题组织成一个需要按顺序完成的链条——每个步骤的输出作为下一步的输入。

结果：当这些高准确率的单项任务被串联后，整体准确率降至 9.83%。这意味着原本几乎完美的能力，在多步骤场景下几乎完全失效。

准确率从 95.7% 到 9.83% 的暴跌，根源在于误差的级联放大：

研究团队提出了三个核心原因：

场景	风险等级	说明
单次问答/分析	低	单项任务准确率仍然很高
多步骤工作流	高	链条越长，整体失败率越高
自主 Agent	极高	Agent 本质上是长链条推理，需要额外的错误恢复机制
科学发现流程	高	多阶段研究流程需要人工介入验证关键节点