SimpleQA на 95% локально: local-deep-research позволяет Qwen3.6-27B обогнать облако на RTX 3090

Когда OpenAI выпустила SimpleQA, цель была проверить, «могут ли модели отвечать на простые фактологические вопросы». Результаты? GPT-4o — 61%, o1 — около 70%+.

Затем проект local-deep-research заявил: Qwen3.6-27B, одна RTX 3090, ~95%.

Это не прорыв в способности модели — это системная инженерия.

Как это работает

Ключевая идея — не обучить более умную модель, а сделать приличную модель чрезвычайно надёжной через цепочки инструментов и поисковые стратегии.

10+ поисковых систем: arXiv, PubMed, общий поиск, приватные документы
Многоуровневый поиск и верификация
Локальная работа, полное шифрование
Поддержка всех основных LLM-бэкендов

7,572 звёзд, 2,046 за неделю. 6,448 коммитов — проект невероятно активен.

Моя оценка

local-deep-research представляет важный тренд: локальная малая модель + поисковое усиление > облачная большая модель, по крайней мере в треке фактологических ответов.

Это не значит, что GPT-4o «сдал». Это значит, что для сценариев, требующих точных фактологических ответов, локально развёрнутая модель среднего размера с хорошей поисковой стратегией может превзойти решения, полагающиеся исключительно на внутренние знания модели.

Минусы: медленная скорость, высокое потребление токенов, 95% — результат при определённых условиях. Но направление верное.

Основные источники:

LearningCircuit/local-deep-research GitHub

Как это работает

Моя оценка

Похожие материалы

Официальный релиз MCP-сервера от Chrome DevTools: ИИ-агенты для программирования наконец-то могут «видеть» браузер

Google I/O 2026: «Агентизация» поиска — это не обновление, а переписывание с нуля

Технология водяных знаков Google SynthID внедряется гигантами вроде OpenAI и Nvidia: отслеживание происхождения контента ИИ вступает в эпоху стандартизации