26Mパラメータ。GPT-3の約6万分の1。
Cactus ComputeがNeedleをオープンソース化。Gemini 3.1をスマートフォン、時計、スマートグラスで動作する関数呼び出しモデルに蒸留した。
本番環境(Cactus推論フレームワーク)での計測値:prefill速度6000 toks/sec、decode速度1200 toks/sec。
アーキテクチャ:Simple Attention Network
エンコーダー12層(FFNなし)、デコーダー8層。次元512、8アテンションヘッド。
主な情報源: