ローカルでSimpleQA 95%：local-deep-researchがQwen3.6-27BをRTX 3090でクラウド並みに

OpenAIがSimpleQAをリリースしたとき、目的はモデルが「簡単な事実問題に答えられるか」を測定することだった。結果は……GPT-4oが61%、o1が70%台。

そこにlocal-deep-researchが現れ、言った。Qwen3.6-27B、RTX 3090一枚で~95%。

これはモデル能力のブレイクスルーではない——システムエンジニアリングだ。

何をしているのか

核心理念はより賢いモデルを訓練することではなく、そこそこのモデルをツールチェーンと検索戦略で極めて信頼性の高いものにすること。

7,572スター、今週2,046増加。6,448コミット——このプロジェクトは非常に活発。

SimpleQAは事実QAの正確率を測定する。local-deep-researchが95%に達するのは、モデル自体が賢いからではなく（Qwen3.6-27Bの生SimpleQAスコアはもっと低い）：

つまり、「モデルの知識」の問題を「モデルの検索・検証能力」の問題に変えた。

local-deep-researchは重要なトレンドを代表している：ローカルの小モデル + 検索拡張 > クラウドの大モデル、少なくとも事実QAのトラックにおいては。

速度は遅い。token消費は低くない。95%は特定の条件下での結果。だが、正確な事実回答が必要なシナリオでは、ローカルデプロイの中等モデルに良い検索戦略を組み合わせることで、モデルの内部知識のみに依存する方案を上回ることができる。

主なソース：