C
ChaoBro

Supertonic 3:99M 参数、31 种语言、本地运行——这个 TTS 工具凭什么取代云端 API

Supertonic 3:99M 参数、31 种语言、本地运行——这个 TTS 工具凭什么取代云端 API

做产品的人大概都遇到过这个场景:你想在 App 里加个语音朗读功能,但 TTS API 的价格让你犹豫;你担心用户的隐私数据被传到云端;你需要的语言刚好不在支持列表里。

Supertonic 3 把这三个问题一起解决了。

上周,韩国音频技术公司 Supertone 正式发布了 Supertonic 3 的 Python SDK v1.3.1,新增了 supertonic serve 命令——你可以在本地启动一个 HTTP 服务器,暴露原生的 /v1/tts 端点和 OpenAI 兼容的 /v1/audio/speech 端点。这意味着任何用 OpenAI TTS API 的项目,只需要改一个 URL 就能切换到本地部署。

几个硬数据

先看最核心的指标:

99M 参数。 目前开源的 TTS 模型大多是 0.7B 到 2B 参数级别。Supertonic 3 用不到 1/7 的参数量做到了相当的水平——这对部署成本的影响是直接的。更小的模型意味着更快的冷启动速度、更低的内存占用,以及更重要的——能在没有 GPU 的设备上运行。

31 种语言。 阿拉伯语、日语、韩语、越南语、印地语……覆盖范围相当广。而且它支持 lang="na" 模式——你不知道输入文本是什么语言?没关系,Supertonic 会自动用语言无关的方式处理。这个设计在实际应用中非常实用,因为你经常无法预先确定用户输入的语言。

44.1kHz / 16-bit WAV 输出。 不是压缩过的 mp3,不是 22kHz 的低采样率,而是直接的录音室级音频输出。对于播客制作、有声书、教育内容等场景,这个质量是够用的。

ONNX Runtime 驱动。 支持 Python、Node.js、浏览器 WebGPU、Java、C++、C#、Go、Swift、iOS、Rust、Flutter——几乎你能想到的 runtime 都有 SDK 示例。这不是一个"只能在 Python 里跑"的项目。

表情标签(Expression Tags)

这个功能我觉得很有意思。Supertonic 3 支持 10 种内联表情标签,比如 <laugh>(笑声)、<breath>(呼吸)、<sigh>(叹气)。你不需要写 prompt,不需要提供参考音频,直接在文本里插入标签,生成的语音就会带有自然的人类语气。

比如这样一段文本:

今天终于完成了这个项目<sigh>,<laugh>大家辛苦了!

生成的语音会在"这个项目"后面有一个叹气声,然后是笑声。这种自然的语气变化,在过去需要专业的语音演员录制,现在可以通过标签控制。

Voice Builder:零样本声音克隆

Supertone 还上线了 Voice Builder,支持零样本声音克隆。你上传一段目标语音样本,系统会生成对应的声音配置文件(JSON 格式),然后你可以用这个配置来生成任意文本的语音。

更实用的是,Voice Builder 现在同时支持 Supertonic 2 和 Supertonic 3 的 JSON 文件下载。如果你之前创建过 Supertonic 2 的声音配置,可以直接从 My Page 获取对应的 Supertonic 3 版本。

什么时候该用它,什么时候不该用

适合的场景:

  • 需要在 App/网站中嵌入 TTS 功能,但不想依赖外部 API
  • 对数据隐私有严格要求的场景(医疗、金融)
  • 多语言内容批量生成(有声书、教育内容)
  • 边缘设备部署(Raspberry Pi、嵌入式设备)
  • 需要 OpenAI 兼容 API 但想控制成本的团队

不太适合的场景:

  • 需要极致自然度、几乎无法区分真人的场景(比如电影配音——虽然效果不错,但离专业配音演员还有距离)
  • 需要实时流式输出的场景(Supertonic 3 是批处理模式)
  • 对特定音色有极高要求的商业项目

竞争格局

Supertonic 不是第一个开源 TTS,也不是第一个支持多语言的。但在 2026 年的开源 TTS 生态中,它的定位比较独特:在参数量、语言数量、部署灵活性之间取得了一个难得的平衡。

Kokoro TTS 更小(~82M 参数),但语言支持有限。VITS 类模型质量不错,但部署复杂度高。Supertonic 3 通过 ONNX Runtime 的统一推理引擎,把部署难度降到了"pip install"的级别。

加上刚发布的 supertonic serve 命令,它现在可以直接替代 OpenAI 的 TTS API——对于那些想控制成本、保护数据隐私的团队来说,这是一个非常实际的选择。

结论

Supertonic 3 不是那种"技术上最前沿"的模型。它的创新更多体现在工程层面:用更小的参数量做到可用的质量、支持尽可能多的语言、提供尽可能多的 runtime SDK、让部署尽可能简单。

在 AI 工具领域,有时候"够用 + 好用"比"最先进"更重要。Supertonic 3 走的就是这条路。