本地深度研究 95% 准确率：把 deep research 从云端搬到一台 3090 上的工作流

OpenAI 的 Deep Research 好用，但有两个问题：贵，而且你得把研究主题和数据发到别人的服务器上。

local-deep-research 的答案是：不用发到任何地方，一台 3090 就能跑。

7,545 星，一周涨 2,046。在单张 RTX 3090 上跑 Qwen3.6-27B，SimpleQA 分数到了约 95%。

这个 95% 意味着什么

SimpleQA 是 OpenAI 出的一个问答基准，专门测模型的"简单但需要事实检索"的能力。不是推理题，是"你知道这个事实吗"的题。

95% 什么概念？OpenAI 自己的 o3 在这个基准上是 93.6%（根据 OpenAI 官方系统卡）。

当然，直接对比要谨慎。local-deep-research 用的不是裸模型——它套了搜索增强、多引擎聚合、答案验证这一整套流程。但即便如此，能用消费级硬件跑到这个水平，本身就是个信号。

这个项目的核心不是模型，是研究流程的工程化。它做了这几件事：

多搜索引擎聚合。 支持 10+ 搜索引擎，包括 arXiv、PubMed、以及你自己的私有文档。不是随便调几个 API 就完事——它做了结果去重、相关性排序、交叉验证。

迭代式研究。 不是一次搜索就给出答案。它会像人做研究一样：先搜一轮，找到关键信息，再针对性地深挖，最后综合输出。

本地加密。 所有数据存在本地，搜索走加密通道。对医疗、法律、金融这些对数据隐私敏感的行业，这是刚需。

模型无关。 支持 llama.cpp、Ollama、Google、OpenAI 等几乎所有本地和云端 LLM。你可以根据硬件条件自由切换。

我用它做了两个测试：

第一个是技术调研——"比较 RAG 方案中向量检索和非向量检索的优劣"。它搜了 arXiv 上的相关论文，聚合了多个来源，最后输出了一个结构化的对比报告。质量不输我自己花两小时手写的。

第二个是市场研究——"2026 年 Q2 AI 编码工具的市场格局"。这个稍微弱一些，因为实时数据的覆盖不如专业付费工具。但对于初步摸底完全够用。

别被 95% 的数字冲昏头。

该用的场景：

不该用的场景：

local-deep-research 代表了本地 AI 工作流的一个成熟方向：不再是"能在本地跑就行"，而是"在本地跑出来的结果能和云端掰手腕"。

它不是 Deep Research 的完全替代品。但对于特定场景，它已经够用了。

而且趋势很明确：随着 27B 这个级别的开源模型越来越强，本地深度研究的质量只会继续上升。

主要来源：