C
ChaoBro

本地深度研究 95% 准确率:把 deep research 从云端搬到一台 3090 上的工作流

本地深度研究 95% 准确率:把 deep research 从云端搬到一台 3090 上的工作流

OpenAI 的 Deep Research 好用,但有两个问题:贵,而且你得把研究主题和数据发到别人的服务器上。

local-deep-research 的答案是:不用发到任何地方,一台 3090 就能跑。

7,545 星,一周涨 2,046。在单张 RTX 3090 上跑 Qwen3.6-27B,SimpleQA 分数到了约 95%。

这个 95% 意味着什么

SimpleQA 是 OpenAI 出的一个问答基准,专门测模型的"简单但需要事实检索"的能力。不是推理题,是"你知道这个事实吗"的题。

95% 什么概念?OpenAI 自己的 o3 在这个基准上是 93.6%(根据 OpenAI 官方系统卡)。

当然,直接对比要谨慎。local-deep-research 用的不是裸模型——它套了搜索增强、多引擎聚合、答案验证这一整套流程。但即便如此,能用消费级硬件跑到这个水平,本身就是个信号。

工作流拆解

这个项目的核心不是模型,是研究流程的工程化。它做了这几件事:

多搜索引擎聚合。 支持 10+ 搜索引擎,包括 arXiv、PubMed、以及你自己的私有文档。不是随便调几个 API 就完事——它做了结果去重、相关性排序、交叉验证。

迭代式研究。 不是一次搜索就给出答案。它会像人做研究一样:先搜一轮,找到关键信息,再针对性地深挖,最后综合输出。

本地加密。 所有数据存在本地,搜索走加密通道。对医疗、法律、金融这些对数据隐私敏感的行业,这是刚需。

模型无关。 支持 llama.cpp、Ollama、Google、OpenAI 等几乎所有本地和云端 LLM。你可以根据硬件条件自由切换。

我自己的使用场景

我用它做了两个测试:

第一个是技术调研——"比较 RAG 方案中向量检索和非向量检索的优劣"。它搜了 arXiv 上的相关论文,聚合了多个来源,最后输出了一个结构化的对比报告。质量不输我自己花两小时手写的。

第二个是市场研究——"2026 年 Q2 AI 编码工具的市场格局"。这个稍微弱一些,因为实时数据的覆盖不如专业付费工具。但对于初步摸底完全够用。

短板

别被 95% 的数字冲昏头。

  • 速度。 在 3090 上跑一轮完整研究要几分钟到十几分钟,取决于查询复杂度。云端 Deep Research 虽然也慢,但用的是更强大的模型。
  • 多模态缺失。 目前只支持文本。图表、PDF 中的图片、视频内容——这些它处理不了。
  • 配置门槛。 虽然 README 写得不错,但要跑通全套流程,你还是得懂一点 Ollama/llama.cpp 的配置。不是"一键安装"那种体验。
  • 知识截止。 本地模型的知识有截止日期。虽然有搜索增强来补,但对于"今天刚发生的事",反应速度不如云端。

什么时候该用它

该用的场景:

  • 研究涉及敏感数据,不能发到云端
  • 需要反复跑同一类研究,云端费用累积起来不划算
  • 对数据主权有要求(学术机构、政府项目)

不该用的场景:

  • 需要最新实时信息(比如"今天某某公司发布了什么")
  • 需要多模态分析
  • 你没有 3090 级别的硬件——用 CPU 或者小内存 GPU 跑 27B 模型,体验会很差

判断

local-deep-research 代表了本地 AI 工作流的一个成熟方向:不再是"能在本地跑就行",而是"在本地跑出来的结果能和云端掰手腕"。

它不是 Deep Research 的完全替代品。但对于特定场景,它已经够用了。

而且趋势很明确:随着 27B 这个级别的开源模型越来越强,本地深度研究的质量只会继续上升。


主要来源: