C
ChaoBro

ローカルでSimpleQA 95%:local-deep-researchがQwen3.6-27BをRTX 3090でクラウド並みに

ローカルでSimpleQA 95%:local-deep-researchがQwen3.6-27BをRTX 3090でクラウド並みに

OpenAIがSimpleQAをリリースしたとき、目的はモデルが「簡単な事実問題に答えられるか」を測定することだった。結果は……GPT-4oが61%、o1が70%台。

そこにlocal-deep-researchが現れ、言った。Qwen3.6-27B、RTX 3090一枚で~95%。

これはモデル能力のブレイクスルーではない——システムエンジニアリングだ。

何をしているのか

核心理念はより賢いモデルを訓練することではなく、そこそこのモデルをツールチェーンと検索戦略で極めて信頼性の高いものにすること。

7,572スター、今週2,046増加。6,448コミット——このプロジェクトは非常に活発。

95%という数字の理解

SimpleQAは事実QAの正確率を測定する。local-deep-researchが95%に達するのは、モデル自体が賢いからではなく(Qwen3.6-27Bの生SimpleQAスコアはもっと低い):

  1. 検索エンジンが外部知識を提供
  2. 複数ラウンドの検索戦略が情報の盲点をカバー
  3. 交差検証が幻覚を減少

つまり、「モデルの知識」の問題を「モデルの検索・検証能力」の問題に変えた。

私の判断

local-deep-researchは重要なトレンドを代表している:ローカルの小モデル + 検索拡張 > クラウドの大モデル、少なくとも事実QAのトラックにおいては。

速度は遅い。token消費は低くない。95%は特定の条件下での結果。だが、正確な事実回答が必要なシナリオでは、ローカルデプロイの中等モデルに良い検索戦略を組み合わせることで、モデルの内部知識のみに依存する方案を上回ることができる。


主なソース: