C
ChaoBro

腾讯混元发布 440MB 离线翻译模型,1.8B 参数效果对标 72B 级模型

腾讯混元发布 440MB 离线翻译模型,1.8B 参数效果对标 72B 级模型

在没人注意的角落,腾讯混元发了一个很小的模型——小到只有 440MB,1.8B 参数。

小不是卖点。卖点是它声称翻译效果比 Tower-Plus-72B 和 Qwen3 35B 都好。

为什么值得关注

72B 参数模型的体量是 1.8B 的 40 倍。如果 1.8B 的翻译质量能追平甚至超过 72B 级模型,说明两件事:

一是翻译任务的模型效率被严重低估了。 通用大模型在翻译任务上存在大量冗余参数——这些参数用于代码生成、逻辑推理、创意写作,跟翻译没关系。一个专门针对翻译优化的 1.8B 模型,可以在这个垂直任务上做到极致压缩。

二是端侧翻译体验可能被重塑。 440MB 的模型可以轻松塞进手机本地运行,不需要联网。微信、QQ 这类即时通讯工具的内置翻译如果换上这个模型,速度和隐私都会有质的提升。

有人已经在猜测微信自带的翻译功能底层是不是已经在跑这个模型。从体验上看,微信翻译的速度和准确度确实一直在线——如果底层换成了本地模型,那解释得通。

技术思路

这种"小参数垂直任务超越大模型"的路线在翻译领域不是第一次出现,但做到 1.8B 对标 72B 还是很激进的。核心应该是在训练数据质量和架构优化上下了功夫——不是把所有文本都灌进去,而是用高质量的平行语料定向训练。

局限

当然,这只是翻译任务的表现。1.8B 的模型不可能在通用能力上跟 72B 竞争。它就是一个专用翻译器,不是通用大模型。

如果你需要离线翻译能力,这个模型值得关注。 尤其是端侧部署场景——手机、平板、嵌入式设备,440MB 的体积基本没有部署门槛。

相关阅读:

主要来源:X/Twitter 社区讨论