GENERAL365 基准发布:通用推理能力测试的新标尺

GENERAL365 基准发布:通用推理能力测试的新标尺

结论先行

GENERAL365 是 2026 年 4 月 27 日发布的新推理基准,专门测试大模型在 K-12 知识范围内解决高难度推理问题的能力。365 道题目全部人工策划,覆盖复杂约束、嵌套逻辑和语义干扰三大类型。当前最强模型得分不到 10%——这意味着现有大模型在”纯推理”(不依赖外部知识,仅靠逻辑推导)方面的能力远未达到人类水平。

基准设计

GENERAL365 与传统推理基准有三个关键差异:

特征MMLU / GSM8KAIME / FrontierMathGENERAL365
知识依赖大量专业知识数学竞赛级知识K-12 基础知识
题目来源题库自动筛选数学竞赛真题365 道人工策划
测试目标知识掌握度数学深度推理通用逻辑推理
干扰项语义干扰

核心设计原则:如果题目不需要大学专业知识就能理解,但最强 AI 仍然做不对,那问题不在”知识不够”,而在”推理能力不足”。

三大测试维度

  1. 复杂约束:题目中同时存在多个相互制约的条件,需要模型同时跟踪并推理
  2. 嵌套逻辑:条件之间形成多层嵌套关系(“如果 A 则 B,除非 C,但 D 为真时…”)
  3. 语义干扰:题目包含看似相关但实际上是误导的信息,考验模型的注意力分配和信息过滤

当前表现

截至发布时,最强模型得分不到 10%。这意味着 365 道题中,目前最先进的大模型只能做对不到 37 道。

这一结果与 xReach 上另一条线索吻合:有研究者指出 LongCoT(长链思维链)是 2026 年最重要的 AI 基准,而当前最强模型得分不到 10%。这两个基准从不同角度指向同一结论——大模型的长程推理和复杂逻辑处理能力仍是最大短板。

为什么这个基准值得关注

  1. 控制了知识变量:通过限定 K-12 知识范围,排除了”模型因为没学过而不会做”的情况,纯测推理能力
  2. 人工策划而非自动采集:365 道题全部人工设计,避免了题库自动采集中常见的”题目过拟合”问题
  3. 语义干扰贴近真实场景:实际工作中,人们遇到的问题往往夹杂噪音信息——GENERAL365 的语义干扰维度直接测试这一点
  4. 代码和基准已公开:研究者可以复现、扩展,社区可以持续跟踪进展

选择建议

角色如何利用
模型厂商将 GENERAL365 纳入内部评测体系,追踪模型迭代中的推理能力提升
研究者分析模型在哪些类型的题目上失败,定位推理能力的具体短板
开发者如果应用场景涉及复杂逻辑推理(法律、审计、排程),当前模型的 GENERAL365 得分提示你需要设计额外的人工审核层
企业采购用 GENERAL365 得分作为模型选型参考之一——得分低于 5% 的模型不适合用于高逻辑密度的业务场景

来源