Когда OpenAI выпустила SimpleQA, цель была проверить, «могут ли модели отвечать на простые фактологические вопросы». Результаты? GPT-4o — 61%, o1 — около 70%+.
Затем проект local-deep-research заявил: Qwen3.6-27B, одна RTX 3090, ~95%.
Это не прорыв в способности модели — это системная инженерия.
Как это работает
Ключевая идея — не обучить более умную модель, а сделать приличную модель чрезвычайно надёжной через цепочки инструментов и поисковые стратегии.
- 10+ поисковых систем: arXiv, PubMed, общий поиск, приватные документы
- Многоуровневый поиск и верификация
- Локальная работа, полное шифрование
- Поддержка всех основных LLM-бэкендов
7,572 звёзд, 2,046 за неделю. 6,448 коммитов — проект невероятно активен.
Моя оценка
local-deep-research представляет важный тренд: локальная малая модель + поисковое усиление > облачная большая модель, по крайней мере в треке фактологических ответов.
Это не значит, что GPT-4o «сдал». Это значит, что для сценариев, требующих точных фактологических ответов, локально развёрнутая модель среднего размера с хорошей поисковой стратегией может превзойти решения, полагающиеся исключительно на внутренние знания модели.
Минусы: медленная скорость, высокое потребление токенов, 95% — результат при определённых условиях. Но направление верное.
Основные источники: