本地跑 SimpleQA 到 95%：local-deep-research 让 Qwen3.6-27B 在 3090 上干翻云端方案

OpenAI 发布 SimpleQA 的时候，目的是测模型"能不能回答简单事实问题"。结果嘛……GPT-4o 拿了 61%，o1 大概 70% 多。大部分模型在这个基准上表现平庸。

然后有个叫 local-deep-research 的开源项目说：我用 Qwen3.6-27B，一张 RTX 3090，跑到了 ~95%。

这不是模型能力的突破——是系统工程。

它怎么做到的

local-deep-research 的核心思路不是训练一个更聪明的模型，而是让一个还凑合的模型，通过工具链和搜索策略变得极其可靠。

具体来说：

7,572 颗星，过去一周涨了 2,046 星。6,448 次 commit——这个项目极其活跃。

SimpleQA 测的是事实性问答的准确率。local-deep-research 能到 95%，靠的不是模型本身多聪明（Qwen3.6-27B 在原始 SimpleQA 上远没有这个成绩），而是：

换句话说，它把"模型的知识储备"问题变成了"模型的检索和验证能力"问题。这其实更接近人类做研究的真实方式——你不会靠记忆回答所有问题，你会去查资料、对比来源、得出结论。

速度慢。 多轮搜索 + 推理，一次查询可能要几十秒甚至几分钟。不是所有场景都能接受这个延迟。

token 消耗不低。 虽然模型跑在本地，不花 API 钱，但 27B 模型在 3090 上的推理速度有限。大批量查询会排队。

95% 是特定条件下的结果。 README 写的是 "~95% on SimpleQA (e.g. Qwen3.6-27B on a 3090)"——这个"约"字很关键。不同问题类型、不同搜索引擎配置，结果会有差异。

local-deep-research 代表了一个重要趋势：本地小模型 + 搜索增强 > 云端大模型，至少在事实性问答这个赛道上。

这不是说 GPT-4o 不行了。而是说，对于"需要准确事实答案"的场景，一个本地部署的中等模型配上好的搜索策略，效果可以超越单纯依赖模型内部知识的方案。

适合谁用：

不适合谁用：

这个项目的 commit 频率（6,448 次！）说明社区在认真对待它。不是一时热度，是在持续打磨。值得关注。

主要来源：