腾讯混元发布 440MB 离线翻译模型，1.8B 参数效果对标 72B 级模型

在没人注意的角落，腾讯混元发了一个很小的模型——小到只有 440MB，1.8B 参数。

小不是卖点。卖点是它声称翻译效果比 Tower-Plus-72B 和 Qwen3 35B 都好。

为什么值得关注

72B 参数模型的体量是 1.8B 的 40 倍。如果 1.8B 的翻译质量能追平甚至超过 72B 级模型，说明两件事：

一是翻译任务的模型效率被严重低估了。 通用大模型在翻译任务上存在大量冗余参数——这些参数用于代码生成、逻辑推理、创意写作，跟翻译没关系。一个专门针对翻译优化的 1.8B 模型，可以在这个垂直任务上做到极致压缩。

二是端侧翻译体验可能被重塑。 440MB 的模型可以轻松塞进手机本地运行，不需要联网。微信、QQ 这类即时通讯工具的内置翻译如果换上这个模型，速度和隐私都会有质的提升。

有人已经在猜测微信自带的翻译功能底层是不是已经在跑这个模型。从体验上看，微信翻译的速度和准确度确实一直在线——如果底层换成了本地模型，那解释得通。

这种"小参数垂直任务超越大模型"的路线在翻译领域不是第一次出现，但做到 1.8B 对标 72B 还是很激进的。核心应该是在训练数据质量和架构优化上下了功夫——不是把所有文本都灌进去，而是用高质量的平行语料定向训练。

当然，这只是翻译任务的表现。1.8B 的模型不可能在通用能力上跟 72B 竞争。它就是一个专用翻译器，不是通用大模型。

如果你需要离线翻译能力，这个模型值得关注。 尤其是端侧部署场景——手机、平板、嵌入式设备，440MB 的体积基本没有部署门槛。