GENERAL365 基准发布：通用推理能力测试的新标尺

结论先行

GENERAL365 是 2026 年 4 月 27 日发布的新推理基准，专门测试大模型在 K-12 知识范围内解决高难度推理问题的能力。365 道题目全部人工策划，覆盖复杂约束、嵌套逻辑和语义干扰三大类型。当前最强模型得分不到 10%——这意味着现有大模型在”纯推理”（不依赖外部知识，仅靠逻辑推导）方面的能力远未达到人类水平。

基准设计

GENERAL365 与传统推理基准有三个关键差异：

特征	MMLU / GSM8K	AIME / FrontierMath	GENERAL365
知识依赖	大量专业知识	数学竞赛级知识	K-12 基础知识
题目来源	题库自动筛选	数学竞赛真题	365 道人工策划
测试目标	知识掌握度	数学深度推理	通用逻辑推理
干扰项	无	无	语义干扰

核心设计原则：如果题目不需要大学专业知识就能理解，但最强 AI 仍然做不对，那问题不在”知识不够”，而在”推理能力不足”。

三大测试维度：

复杂约束：题目中同时存在多个相互制约的条件，需要模型同时跟踪并推理
嵌套逻辑：条件之间形成多层嵌套关系（“如果 A 则 B，除非 C，但 D 为真时…”）
语义干扰：题目包含看似相关但实际上是误导的信息，考验模型的注意力分配和信息过滤

当前表现

截至发布时，最强模型得分不到 10%。这意味着 365 道题中，目前最先进的大模型只能做对不到 37 道。

这一结果与 xReach 上另一条线索吻合：有研究者指出 LongCoT（长链思维链）是 2026 年最重要的 AI 基准，而当前最强模型得分不到 10%。这两个基准从不同角度指向同一结论——大模型的长程推理和复杂逻辑处理能力仍是最大短板。

为什么这个基准值得关注

控制了知识变量：通过限定 K-12 知识范围，排除了”模型因为没学过而不会做”的情况，纯测推理能力
人工策划而非自动采集：365 道题全部人工设计，避免了题库自动采集中常见的”题目过拟合”问题
语义干扰贴近真实场景：实际工作中，人们遇到的问题往往夹杂噪音信息——GENERAL365 的语义干扰维度直接测试这一点
代码和基准已公开：研究者可以复现、扩展，社区可以持续跟踪进展

选择建议

角色	如何利用
模型厂商	将 GENERAL365 纳入内部评测体系，追踪模型迭代中的推理能力提升
研究者	分析模型在哪些类型的题目上失败，定位推理能力的具体短板
开发者	如果应用场景涉及复杂逻辑推理（法律、审计、排程），当前模型的 GENERAL365 得分提示你需要设计额外的人工审核层
企业采购	用 GENERAL365 得分作为模型选型参考之一——得分低于 5% 的模型不适合用于高逻辑密度的业务场景

结论先行

基准设计

当前表现

为什么这个基准值得关注

选择建议

来源

相关内容

Kimi K2.6 登顶 Design Arena：月之暗面在 3D 设计领域超越所有美国模型

Qwen 3.6 Max BS Benchmark 评测：反幻觉能力超越所有 OpenAI 模型

Oxford/LLNL 链式推理基准：GPT 单项 95.7%，串联后暴跌至 9.83%