ローカルディープリサーチ95%の精度：Deep Research をクラウドから1台の3090に移すワークフロー

OpenAI の Deep Research は素晴らしいが、2つの問題がある：高い、そして研究トピックとデータを他人のサーバーに送らなければならない。

local-deep-research の答え：どこにも送る必要はない、3090 が1台あれば十分。

7,545スター、今週2,046増加。RTX 3090 単体で Qwen3.6-27B を実行、SimpleQA スコアは約95%。

この95%が意味すること

SimpleQA は OpenAI が出したベンチマークで、モデルの「シンプルだが事実検索が必要」な能力を測定するもの。推理問題ではなく、「この事実を知っているか」の問題。

95% のコンテクストは？OpenAI 自身の o3 がこのベンチマークで 93.6%（OpenAI 公式システムカードによる）。

もちろん、直接比較には注意が必要。local-deep-research は裸のモデルを使っているわけではない——検索拡張、マルチエンジン集約、回答検証のフルパイプラインを纏めている。だが即便如此、コンシューマーグレードのハードウェアでこのレベルに到達できること自体がシグナル。

このプロジェクトのコアはモデルではない——リサーチプロセスのエンジニアリングだ。以下のことを実現：

マルチ検索エンジン集約。 arXiv、PubMed、プライベートドキュメントを含む10以上の検索エンジンをサポート。単にAPIを呼ぶだけでなく、結果の重複除去、関連性ランキング、相互検証を行う。

反復的リサーチ。 1回の検索で答えを出すわけではない。人間がリサーチするように：まず検索、重要情報を見つけ、その後针对性的に深掘り、最後に統合出力。

ローカル暗号化。 すべてのデータはローカルに保存、検索は暗号化チャネル経由。医療、法律、金融などデータプライバシーに敏感な業界にとって、これは必須。

モデル非依存。 llama.cpp、Ollama、Google、OpenAI など、ほぼすべてのローカルおよびクラウド LLM をサポート。ハードウェア条件に応じて自由に切り替え可能。

2つのシナリオでテストした：

1つ目、技術リサーチ——「RAG システムにおけるベクトル検索と非ベクトル検索の比較」。arXiv 上の関連論文を検索、複数のソースを集約、構造化された比較レポートを出力。品質は私が2時間かけて自分で書くものに劣らない。

2つ目、市場リサーチ——「2026年Q2のAIコーディングツール市場」。これはやや弱かった——リアルタイムデータのカバレッジは専門の有料ツールに及ばない。だが初期摸底には十分。

95% の数字に踊らされるな。

速度。 3090 上で1回の完全なリサーチに数分〜10分以上かかる。クエリの複雑さによる。クラウド Deep Research も遅いが、より強力なモデルを使っている。
マルチモーダルなし。 現在テキストのみ。チャート、PDF 内の画像、ビデオコンテンツ——これらは処理できない。
設定のハードル。 README はよく書かれているが、フルパイプラインを走らせるには Ollama/llama.cpp の設定にある程度の知識が必要。「ワンクリックインストール」の体験ではない。
知識のカットオフ。 ローカルモデルのトレーニングデータには截止日期がある。検索拡張で補えるが、「今日起きたこと」への反応速度はクラウドに及ばない。

使うべきシーン：

使うべきでないシーン：

local-deep-research はローカル AI ワークフローの成熟した方向性を代表している：もはや「ローカルで走れるか」ではなく「ローカルで走った結果がクラウドと競合できるか」。

Deep Research の完全な代替品ではない。だが特定のシナリオでは、すでに十分。

そしてトレンドは明確：27B クラスのオープンソースモデルが強くなるにつれ、ローカルディープリサーチの品質は上がり続ける。

主な情報源：