26M параметров. Это примерно одна шестидесятитысячная от GPT-3.
Cactus Compute开源了Needle——将 Gemini 3.1 蒸馏为可在手机、手表甚至智能眼镜上运行的函数调用模型。
生产环境实测:prefill 速度 6000 toks/sec,decode 速度 1200 toks/sec。
Основные источники:
26M параметров. Это примерно одна шестидесятитысячная от GPT-3.
Cactus Compute开源了Needle——将 Gemini 3.1 蒸馏为可在手机、手表甚至智能眼镜上运行的函数调用模型。
生产环境实测:prefill 速度 6000 toks/sec,decode 速度 1200 toks/sec。
Основные источники: