OpenAIがSimpleQAをリリースしたとき、目的はモデルが「簡単な事実問題に答えられるか」を測定することだった。結果は……GPT-4oが61%、o1が70%台。
そこにlocal-deep-researchが現れ、言った。Qwen3.6-27B、RTX 3090一枚で~95%。
これはモデル能力のブレイクスルーではない——システムエンジニアリングだ。
何をしているのか
核心理念はより賢いモデルを訓練することではなく、そこそこのモデルをツールチェーンと検索戦略で極めて信頼性の高いものにすること。
7,572スター、今週2,046増加。6,448コミット——このプロジェクトは非常に活発。
95%という数字の理解
SimpleQAは事実QAの正確率を測定する。local-deep-researchが95%に達するのは、モデル自体が賢いからではなく(Qwen3.6-27Bの生SimpleQAスコアはもっと低い):
- 検索エンジンが外部知識を提供
- 複数ラウンドの検索戦略が情報の盲点をカバー
- 交差検証が幻覚を減少
つまり、「モデルの知識」の問題を「モデルの検索・検証能力」の問題に変えた。
私の判断
local-deep-researchは重要なトレンドを代表している:ローカルの小モデル + 検索拡張 > クラウドの大モデル、少なくとも事実QAのトラックにおいては。
速度は遅い。token消費は低くない。95%は特定の条件下での結果。だが、正確な事実回答が必要なシナリオでは、ローカルデプロイの中等モデルに良い検索戦略を組み合わせることで、モデルの内部知識のみに依存する方案を上回ることができる。
主なソース: