Mistral Small 4 发布：把推理、多模态和编程塞进一个模型

Mistral 这次做了一个有点反直觉的决定。

过去两年，模型厂商的策略基本是"专款专用"——推理用 thinking 模型，聊天用 instruct 模型，编程用 coding 模型。用户根据自己的场景选模型，或者更常见的做法：每个场景调不同的 API。

Mistral Small 4 直接把这条路堵死了。

一个模型，同时具备 Magistral 级别的推理能力、Pixtral 的多模态输入、以及 Devstral 的编程代理能力。用户不再需要选模型，只需要告诉它你想让它用多大力气思考。

关键数字

119B 总参数，128 个专家，每 token 只激活 4 个——算下来每 token 大约 6B 活跃参数（含 embedding 和输出层约 8B）。256K 上下文窗口。Apache 2.0 开源。

配置推理强度是这个产品最有趣的设计。你可以让它"快答"，走低延迟路线；也可以切换到深度推理模式，让它像 thinking 模型一样逐步拆解问题。同一个模型，两种运行模式。

官方给出的性能对比：相比 Mistral Small 3，延迟优化场景下端到端完成时间减少 40%，吞吐优化场景下每秒请求数提升 3 倍。

在 AA LCR 基准上，Mistral Small 4 得分 0.72，输出长度仅 1.6K 字符。对比 Qwen 系列拿到相近分数需要 5.8-6.1K 字符——差了三倍多的输出量。

这不是分数高低的问题。输出短意味着推理延迟更低、API 成本更少、用户体验更直接。一个模型如果要用三倍的文字量才能拿到同样的分数，在实际部署里是要付真金白银的。

LiveCodeBench 上 Small 4 超过了 GPT-OSS 120B，同时输出量少 20%。这个效率差距在大规模调用场景下会迅速变成成本差距。

推荐配置是 4x HGX H100、4x HGX H200 或 2x DGX B200。和 NVIDIA 的合作已经落实到 vLLM 和 SGLang 两个推理框架的优化上。社区侧，llama.cpp、Transformers、SGLang 都已经支持。

如果你在自己的机器上跑，119B 的总参数量意味着至少需要 200GB+ 显存来加载全模型。不过 MoE 架构的好处是实际推理时只有一小部分参数在工作，量化后部署门槛会低不少。

Small 4 的定位很清晰：它不是去和 Opus、GPT-5.5 拼绝对能力的。它的卖点是"一个模型解决大部分场景，而且跑得便宜"。

对于中小团队来说，这个思路有吸引力。与其维护三四个不同模型的 API 接入、调试、fallback 逻辑，不如用一个 Small 4 覆盖聊天、文档分析、简单编程和推理。牺牲一点天花板，换来部署复杂度的大幅降低。

但如果你需要最顶级的推理深度或编程能力，Small 4 的"全能但非极致"定位可能不满足需求。它的代码能力对标的是 Devstral 的水平——够用，但不是 SWE-bench 刷榜级别。

Mistral 这一步走的是实用主义路线。在模型能力过剩、调用成本敏感的 2026 年，"一个模型干所有事"的性价比叙事，比"我们某个单项第一"更能打动实际掏钱的人。

下一个值得观察的点是：Small 4 的可配置推理模式在实际场景中的表现是否和基准测试一致。基准环境下的"深度推理"和真实业务场景中的表现往往是两回事。