C
ChaoBro

Needle:Gemini 3.1を26Mパラメータのツール呼び出しモデルに蒸留

Needle:Gemini 3.1を26Mパラメータのツール呼び出しモデルに蒸留

26Mパラメータ。GPT-3の約6万分の1。

Cactus ComputeがNeedleをオープンソース化。Gemini 3.1をスマートフォン、時計、スマートグラスで動作する関数呼び出しモデルに蒸留した。

本番環境(Cactus推論フレームワーク)での計測値:prefill速度6000 toks/sec、decode速度1200 toks/sec。

アーキテクチャ:Simple Attention Network

エンコーダー12層(FFNなし)、デコーダー8層。次元512、8アテンションヘッド。


主な情報源: