26Mパラメータのfunction callingモデル：Needleはツール呼び出しをラズベリーパイに詰め込みたい

AIモデルに外部ツールを呼び出させる——天気を調べる、データベースを検索する、APIリクエストを送る——このプロセスをfunction callingと呼びます。

現在これを行う方法：GPT-4o、Claude、Geminiのような大モデルにリクエストを送り、JSON形式のツール呼び出し指示を出力させる。

しかし大モデルを1回呼び出すコスト：ネットワーク遅延 + トークン料金 + プライバシーリスク。

Needleは言います：不要。26Mパラメータの小モデルで十分。

26Mとはどういう概念か

GPT-4oは約2000億パラメータ。Claude Sonnetは数百億。Gemini Proも数百億レベル。

Needleはわずか2600万パラメータ。

3桁小さい。 これはラズベリーパイ、携帯電話、さらには組み込みデバイスで実行可能——ネット接続不要、APIキー不要、支払い不要。

Geminiのツール呼び出し能力から蒸留されました。簡単に言えば：Geminiに数百万回のツール呼び出しをさせ、その入力と出力を記録し、小モデルでこのマッピングをフィッティング。最終的に得られるモデルは元の千分の一体積ですが、機能はほぼ同じ。

function callingはAI Agentのコア能力の一つ。それがなければ、Agentはただのチャットボットで、実際の仕事はできません。

しかし現在のアーキテクチャには構造的な問題があります：Agentがツールを1回呼び出すたびに、クラウド大モデルを1回呼び出す必要がある。 複雑なAgentタスクは十数回のツール呼び出しを含む——毎回ネットワーク経由、毎回トークン支払い、毎回数秒待ち。

Needleのアプローチ：ツール呼び出しステップをローカル化。小モデルがローカルで「どのツールを呼ぶか、パラメータは何か」を判断し、結果をローカル実行者に渡す。クラウド大モデルは複雑な推論が必要なときだけ介入。

これは節約だけでなく、遅延の低減と単一障害点の消除。

Show HNで764点、210コメント——これは相当な熱度。HNユーザーは通常「小モデル」に懐疑的——歴史上「小モデルが大モデルを代替」と謳うプロジェクトが多すぎ、実際には程遠い結果だったから。

ただしNeedleをより説得力にするいくつかの詳細：

234回コミットはイテレーションの速さを示す。6件のオープンissueはコミュニティがすでに実際に使用しフィードバックしていることを示す。

##我的看法

Needleはますます明確なトレンドを代表しています：AI Agentの「脳」は分化している——大モデルは複雑な推論を、小モデルは実行スケジューリングを担当。

これは人間の働き方に似ています：哲学者にスケジュール管理を頼むことはありませんし、秘書に戦略立案を頼むこともありません。

あなたのAgentワークフローに大量のツール呼び出しが含まれるなら、Needleを試す価値があります。エッジにデプロイする予定がなくても、クラウド大モデルの代わりにツール呼び出しルーティングに使えば、コストと遅延を大幅に削減できます。

主要ソース：