C
ChaoBro

本地跑 SimpleQA 到 95%:local-deep-research 让 Qwen3.6-27B 在 3090 上干翻云端方案

本地跑 SimpleQA 到 95%:local-deep-research 让 Qwen3.6-27B 在 3090 上干翻云端方案

OpenAI 发布 SimpleQA 的时候,目的是测模型"能不能回答简单事实问题"。结果嘛……GPT-4o 拿了 61%,o1 大概 70% 多。大部分模型在这个基准上表现平庸。

然后有个叫 local-deep-research 的开源项目说:我用 Qwen3.6-27B,一张 RTX 3090,跑到了 ~95%。

这不是模型能力的突破——是系统工程。

它怎么做到的

local-deep-research 的核心思路不是训练一个更聪明的模型,而是让一个还凑合的模型,通过工具链和搜索策略变得极其可靠

具体来说:

  • 10+ 搜索引擎集成——arXiv、PubMed、通用搜索、私有文档,覆盖面极广
  • 多轮搜索与验证——不是搜一次就回答,而是反复搜索、交叉验证
  • 本地运行,全加密——数据不出本机,对隐私敏感的场景是刚需
  • 支持所有主流 LLM 后端——llama.cpp、Ollama、Google API、各种云端模型

7,572 颗星,过去一周涨了 2,046 星。6,448 次 commit——这个项目极其活跃。

95% 的数字怎么理解

SimpleQA 测的是事实性问答的准确率。local-deep-research 能到 95%,靠的不是模型本身多聪明(Qwen3.6-27B 在原始 SimpleQA 上远没有这个成绩),而是:

  1. 搜索引擎提供了外部知识
  2. 多轮搜索策略覆盖了信息盲区
  3. 交叉验证减少了幻觉

换句话说,它把"模型的知识储备"问题变成了"模型的检索和验证能力"问题。这其实更接近人类做研究的真实方式——你不会靠记忆回答所有问题,你会去查资料、对比来源、得出结论。

但有几个限制

速度慢。 多轮搜索 + 推理,一次查询可能要几十秒甚至几分钟。不是所有场景都能接受这个延迟。

token 消耗不低。 虽然模型跑在本地,不花 API 钱,但 27B 模型在 3090 上的推理速度有限。大批量查询会排队。

95% 是特定条件下的结果。 README 写的是 "~95% on SimpleQA (e.g. Qwen3.6-27B on a 3090)"——这个"约"字很关键。不同问题类型、不同搜索引擎配置,结果会有差异。

我的判断

local-deep-research 代表了一个重要趋势:本地小模型 + 搜索增强 > 云端大模型,至少在事实性问答这个赛道上。

这不是说 GPT-4o 不行了。而是说,对于"需要准确事实答案"的场景,一个本地部署的中等模型配上好的搜索策略,效果可以超越单纯依赖模型内部知识的方案。

适合谁用:

  • 研究机构:需要可复现、可审计的研究流程
  • 企业:数据不能出内网,但需要高质量信息检索
  • 个人开发者:不想花 API 钱,有一张 3090 级别显卡

不适合谁用:

  • 需要实时回答的场景(客服、对话机器人)
  • 没有 GPU 资源的用户
  • 需要创意写作、开放生成的场景

这个项目的 commit 频率(6,448 次!)说明社区在认真对待它。不是一时热度,是在持续打磨。值得关注。


主要来源: