结论先行
GENERAL365 是 2026 年 4 月 27 日发布的新推理基准,专门测试大模型在 K-12 知识范围内解决高难度推理问题的能力。365 道题目全部人工策划,覆盖复杂约束、嵌套逻辑和语义干扰三大类型。当前最强模型得分不到 10%——这意味着现有大模型在”纯推理”(不依赖外部知识,仅靠逻辑推导)方面的能力远未达到人类水平。
基准设计
GENERAL365 与传统推理基准有三个关键差异:
| 特征 | MMLU / GSM8K | AIME / FrontierMath | GENERAL365 |
|---|---|---|---|
| 知识依赖 | 大量专业知识 | 数学竞赛级知识 | K-12 基础知识 |
| 题目来源 | 题库自动筛选 | 数学竞赛真题 | 365 道人工策划 |
| 测试目标 | 知识掌握度 | 数学深度推理 | 通用逻辑推理 |
| 干扰项 | 无 | 无 | 语义干扰 |
核心设计原则:如果题目不需要大学专业知识就能理解,但最强 AI 仍然做不对,那问题不在”知识不够”,而在”推理能力不足”。
三大测试维度:
- 复杂约束:题目中同时存在多个相互制约的条件,需要模型同时跟踪并推理
- 嵌套逻辑:条件之间形成多层嵌套关系(“如果 A 则 B,除非 C,但 D 为真时…”)
- 语义干扰:题目包含看似相关但实际上是误导的信息,考验模型的注意力分配和信息过滤
当前表现
截至发布时,最强模型得分不到 10%。这意味着 365 道题中,目前最先进的大模型只能做对不到 37 道。
这一结果与 xReach 上另一条线索吻合:有研究者指出 LongCoT(长链思维链)是 2026 年最重要的 AI 基准,而当前最强模型得分不到 10%。这两个基准从不同角度指向同一结论——大模型的长程推理和复杂逻辑处理能力仍是最大短板。
为什么这个基准值得关注
- 控制了知识变量:通过限定 K-12 知识范围,排除了”模型因为没学过而不会做”的情况,纯测推理能力
- 人工策划而非自动采集:365 道题全部人工设计,避免了题库自动采集中常见的”题目过拟合”问题
- 语义干扰贴近真实场景:实际工作中,人们遇到的问题往往夹杂噪音信息——GENERAL365 的语义干扰维度直接测试这一点
- 代码和基准已公开:研究者可以复现、扩展,社区可以持续跟踪进展
选择建议
| 角色 | 如何利用 |
|---|---|
| 模型厂商 | 将 GENERAL365 纳入内部评测体系,追踪模型迭代中的推理能力提升 |
| 研究者 | 分析模型在哪些类型的题目上失败,定位推理能力的具体短板 |
| 开发者 | 如果应用场景涉及复杂逻辑推理(法律、审计、排程),当前模型的 GENERAL365 得分提示你需要设计额外的人工审核层 |
| 企业采购 | 用 GENERAL365 得分作为模型选型参考之一——得分低于 5% 的模型不适合用于高逻辑密度的业务场景 |