C
ChaoBro

SimpleQA на 95% локально: local-deep-research позволяет Qwen3.6-27B обогнать облако на RTX 3090

SimpleQA на 95% локально: local-deep-research позволяет Qwen3.6-27B обогнать облако на RTX 3090

Когда OpenAI выпустила SimpleQA, цель была проверить, «могут ли модели отвечать на простые фактологические вопросы». Результаты? GPT-4o — 61%, o1 — около 70%+.

Затем проект local-deep-research заявил: Qwen3.6-27B, одна RTX 3090, ~95%.

Это не прорыв в способности модели — это системная инженерия.

Как это работает

Ключевая идея — не обучить более умную модель, а сделать приличную модель чрезвычайно надёжной через цепочки инструментов и поисковые стратегии.

  • 10+ поисковых систем: arXiv, PubMed, общий поиск, приватные документы
  • Многоуровневый поиск и верификация
  • Локальная работа, полное шифрование
  • Поддержка всех основных LLM-бэкендов

7,572 звёзд, 2,046 за неделю. 6,448 коммитов — проект невероятно активен.

Моя оценка

local-deep-research представляет важный тренд: локальная малая модель + поисковое усиление > облачная большая модель, по крайней мере в треке фактологических ответов.

Это не значит, что GPT-4o «сдал». Это значит, что для сценариев, требующих точных фактологических ответов, локально развёрнутая модель среднего размера с хорошей поисковой стратегией может превзойти решения, полагающиеся исключительно на внутренние знания модели.

Минусы: медленная скорость, высокое потребление токенов, 95% — результат при определённых условиях. Но направление верное.


Основные источники: