直接说结论
如果你的工作涉及深度研究——写研报、做竞品分析、技术调研——Local Deep Research 是目前开源领域最值得投入时间的工具。没有之一。
SimpleQA 上 ~95% 的准确率不是一句空话。这个项目在一张 3090 上就能跑,用的是 Qwen3.6-27B,全部本地化,数据不出机器。对合规敏感的公司和在意隐私的研究者来说,这是目前最实用的方案。
它解决了什么问题
OpenAI 的 Deep Research 出来之后,大家都看到了"AI 做研究"的潜力。但问题也很明显:
- 贵:每次完整研究消耗几十刀,做多了钱包疼
- 数据外泄:你的研究内容全部传到 OpenAI 的服务器
- 不可定制:不能控制搜索源、不能指定参考文档、不能调研究深度
Local Deep Research 把这些痛点逐个击破了。
架构拆解
这个项目的设计其实挺巧妙的。它不是简单地把 LLM 和搜索引擎拼在一起,而是分三层:
搜索层:支持 10+ 搜索引擎——Google、DuckDuckGo、arXiv、PubMed、SearXNG,甚至可以索引你自己的私有文档。这意味着你能控制信息来源,而不是被搜索引擎的算法黑盒牵着走。
研究层:这是核心。模型收到一个研究问题后,不是直接回答,而是先规划搜索策略、执行多轮搜索、分析搜索结果、发现知识缺口、继续深入搜索。这个过程是迭代的,直到模型认为信息足够充分。
报告层:最后生成结构化的研究报告,包含引用来源,方便追溯。
实测数据
我用一台带 RTX 3090 的机器跑了测试,模型用 Qwen3.6-27B(通过 Ollama 加载):
SimpleQA 基准:~95%,这个分数在开源方案里确实是最高的。注意这是社区测试结果,不是官方声明,但多个独立验证结果一致。
实际使用场景:
- "2026年 AI 编程工具的市场格局分析"——耗时约 12 分钟,生成 3000 字报告,引用 18 个来源
- "Rust 异步运行时 Tokio 和 async-std 的性能对比"——耗时约 8 分钟,定位到 3 篇 benchmark 论文
- "某竞品公司的融资历史和业务线梳理"——耗时约 15 分钟,信息准确度需要人工核实几个数据点
踩坑记录
坑一:embedding 模型选择。默认用的 embedding 模型在某些中文场景效果一般。我换成了 BGE-M3,检索质量明显提升。这个建议在 README 里标注得更醒目。
坑二:3090 显存紧张。Qwen3.6-27B 在 3090 上需要量化(4-bit 或 8-bit),推理速度会比全精度慢 2-3 倍。如果你的预算允许,4090 或 A6000 体验好很多。
坑三:搜索引擎 API 配置。部分搜索引擎需要 API key,文档里提了但没有给出详细的配置流程。第一次搭建花了比预期多的时间。
和社区版 Deep Research 比
GitHub 上叫 "deep research" 的项目少说有十个。Local Deep Research 的优势在于:
- 真正的本地化:不像某些项目只是包装了 OpenAI API,这个项目从搜索到生成完全在本地
- 活跃维护:6429 个 commit,155 个 tag,发布节奏密集,社区响应快
- 模块化设计:搜索引擎、LLM、报告模板都可以替换,不是硬编码的方案
不足也有:Web UI 比较简陋,主要是给开发者用的,非技术人员上手有门槛。
值不值得装?
如果你满足以下条件,立刻装:
- 每周需要做 2 次以上的深度研究
- 在意数据隐私
- 有一张 24GB 显存的显卡(或愿意用云 GPU)
- 不介意折腾配置
如果不满足,建议先用云端的 Deep Research 或同类服务,等这个项目更成熟了再考虑迁移。
主要来源:
- LearningCircuit/local-deep-research GitHub
- SimpleQA 社区基准测试结果