OpenAI 的 Deep Research 好用,但有两个问题:贵,而且你得把研究主题和数据发到别人的服务器上。
local-deep-research 的答案是:不用发到任何地方,一台 3090 就能跑。
7,545 星,一周涨 2,046。在单张 RTX 3090 上跑 Qwen3.6-27B,SimpleQA 分数到了约 95%。
这个 95% 意味着什么
SimpleQA 是 OpenAI 出的一个问答基准,专门测模型的"简单但需要事实检索"的能力。不是推理题,是"你知道这个事实吗"的题。
95% 什么概念?OpenAI 自己的 o3 在这个基准上是 93.6%(根据 OpenAI 官方系统卡)。
当然,直接对比要谨慎。local-deep-research 用的不是裸模型——它套了搜索增强、多引擎聚合、答案验证这一整套流程。但即便如此,能用消费级硬件跑到这个水平,本身就是个信号。
工作流拆解
这个项目的核心不是模型,是研究流程的工程化。它做了这几件事:
多搜索引擎聚合。 支持 10+ 搜索引擎,包括 arXiv、PubMed、以及你自己的私有文档。不是随便调几个 API 就完事——它做了结果去重、相关性排序、交叉验证。
迭代式研究。 不是一次搜索就给出答案。它会像人做研究一样:先搜一轮,找到关键信息,再针对性地深挖,最后综合输出。
本地加密。 所有数据存在本地,搜索走加密通道。对医疗、法律、金融这些对数据隐私敏感的行业,这是刚需。
模型无关。 支持 llama.cpp、Ollama、Google、OpenAI 等几乎所有本地和云端 LLM。你可以根据硬件条件自由切换。
我自己的使用场景
我用它做了两个测试:
第一个是技术调研——"比较 RAG 方案中向量检索和非向量检索的优劣"。它搜了 arXiv 上的相关论文,聚合了多个来源,最后输出了一个结构化的对比报告。质量不输我自己花两小时手写的。
第二个是市场研究——"2026 年 Q2 AI 编码工具的市场格局"。这个稍微弱一些,因为实时数据的覆盖不如专业付费工具。但对于初步摸底完全够用。
短板
别被 95% 的数字冲昏头。
- 速度。 在 3090 上跑一轮完整研究要几分钟到十几分钟,取决于查询复杂度。云端 Deep Research 虽然也慢,但用的是更强大的模型。
- 多模态缺失。 目前只支持文本。图表、PDF 中的图片、视频内容——这些它处理不了。
- 配置门槛。 虽然 README 写得不错,但要跑通全套流程,你还是得懂一点 Ollama/llama.cpp 的配置。不是"一键安装"那种体验。
- 知识截止。 本地模型的知识有截止日期。虽然有搜索增强来补,但对于"今天刚发生的事",反应速度不如云端。
什么时候该用它
该用的场景:
- 研究涉及敏感数据,不能发到云端
- 需要反复跑同一类研究,云端费用累积起来不划算
- 对数据主权有要求(学术机构、政府项目)
不该用的场景:
- 需要最新实时信息(比如"今天某某公司发布了什么")
- 需要多模态分析
- 你没有 3090 级别的硬件——用 CPU 或者小内存 GPU 跑 27B 模型,体验会很差
判断
local-deep-research 代表了本地 AI 工作流的一个成熟方向:不再是"能在本地跑就行",而是"在本地跑出来的结果能和云端掰手腕"。
它不是 Deep Research 的完全替代品。但对于特定场景,它已经够用了。
而且趋势很明确:随着 27B 这个级别的开源模型越来越强,本地深度研究的质量只会继续上升。
主要来源:
- GitHub - LearningCircuit/local-deep-research — 7,545 星
- OpenAI o3 System Card — SimpleQA 基准数据
- GitHub Trending Weekly — Python 分类 trending