AIモデルに外部ツールを呼び出させる——天気を調べる、データベースを検索する、APIリクエストを送る——このプロセスをfunction callingと呼びます。
現在これを行う方法:GPT-4o、Claude、Geminiのような大モデルにリクエストを送り、JSON形式のツール呼び出し指示を出力させる。
しかし大モデルを1回呼び出すコスト:ネットワーク遅延 + トークン料金 + プライバシーリスク。
Needleは言います:不要。26Mパラメータの小モデルで十分。
26Mとはどういう概念か
GPT-4oは約2000億パラメータ。Claude Sonnetは数百億。Gemini Proも数百億レベル。
Needleはわずか2600万パラメータ。
3桁小さい。 これはラズベリーパイ、携帯電話、さらには組み込みデバイスで実行可能——ネット接続不要、APIキー不要、支払い不要。
Geminiのツール呼び出し能力から蒸留されました。簡単に言えば:Geminiに数百万回のツール呼び出しをさせ、その入力と出力を記録し、小モデルでこのマッピングをフィッティング。最終的に得られるモデルは元の千分の一体積ですが、機能はほぼ同じ。
なぜこの方向が注目されるか
function callingはAI Agentのコア能力の一つ。それがなければ、Agentはただのチャットボットで、実際の仕事はできません。
しかし現在のアーキテクチャには構造的な問題があります:Agentがツールを1回呼び出すたびに、クラウド大モデルを1回呼び出す必要がある。 複雑なAgentタスクは十数回のツール呼び出しを含む——毎回ネットワーク経由、毎回トークン支払い、毎回数秒待ち。
Needleのアプローチ:ツール呼び出しステップをローカル化。小モデルがローカルで「どのツールを呼ぶか、パラメータは何か」を判断し、結果をローカル実行者に渡す。クラウド大モデルは複雑な推論が必要なときだけ介入。
これは節約だけでなく、遅延の低減と単一障害点の消除。
実データ
Show HNで764点、210コメント——これは相当な熱度。HNユーザーは通常「小モデル」に懐疑的——歴史上「小モデルが大モデルを代替」と謳うプロジェクトが多すぎ、実際には程遠い結果だったから。
ただしNeedleをより説得力にするいくつかの詳細:
- AntonOsika(GPT-Engineer創設者)がメンテナンスに関与——この人はAIコーディングツールコミュニティで信用がある
- 5日前リリース、昨日README更新——アクティビティが高い
- 完全なファインチューニングデータフォーマットドキュメント——ブラックボックスではなく、自分でトレーニング可能
234回コミットはイテレーションの速さを示す。6件のオープンissueはコミュニティがすでに実際に使用しフィードバックしていることを示す。
##我的看法
Needleはますます明確なトレンドを代表しています:AI Agentの「脳」は分化している——大モデルは複雑な推論を、小モデルは実行スケジューリングを担当。
これは人間の働き方に似ています:哲学者にスケジュール管理を頼むことはありませんし、秘書に戦略立案を頼むこともありません。
あなたのAgentワークフローに大量のツール呼び出しが含まれるなら、Needleを試す価値があります。エッジにデプロイする予定がなくても、クラウド大モデルの代わりにツール呼び出しルーティングに使えば、コストと遅延を大幅に削減できます。
主要ソース:
- cactus-compute/needle on GitHub — 2.1K stars, 123 forks, 234 commits
- Show HN投稿:764 points, 210 comments
- プロジェクトファインチューニングデータフォーマットドキュメント