做产品的人大概都遇到过这个场景:你想在 App 里加个语音朗读功能,但 TTS API 的价格让你犹豫;你担心用户的隐私数据被传到云端;你需要的语言刚好不在支持列表里。
Supertonic 3 把这三个问题一起解决了。
上周,韩国音频技术公司 Supertone 正式发布了 Supertonic 3 的 Python SDK v1.3.1,新增了 supertonic serve 命令——你可以在本地启动一个 HTTP 服务器,暴露原生的 /v1/tts 端点和 OpenAI 兼容的 /v1/audio/speech 端点。这意味着任何用 OpenAI TTS API 的项目,只需要改一个 URL 就能切换到本地部署。
几个硬数据
先看最核心的指标:
99M 参数。 目前开源的 TTS 模型大多是 0.7B 到 2B 参数级别。Supertonic 3 用不到 1/7 的参数量做到了相当的水平——这对部署成本的影响是直接的。更小的模型意味着更快的冷启动速度、更低的内存占用,以及更重要的——能在没有 GPU 的设备上运行。
31 种语言。 阿拉伯语、日语、韩语、越南语、印地语……覆盖范围相当广。而且它支持 lang="na" 模式——你不知道输入文本是什么语言?没关系,Supertonic 会自动用语言无关的方式处理。这个设计在实际应用中非常实用,因为你经常无法预先确定用户输入的语言。
44.1kHz / 16-bit WAV 输出。 不是压缩过的 mp3,不是 22kHz 的低采样率,而是直接的录音室级音频输出。对于播客制作、有声书、教育内容等场景,这个质量是够用的。
ONNX Runtime 驱动。 支持 Python、Node.js、浏览器 WebGPU、Java、C++、C#、Go、Swift、iOS、Rust、Flutter——几乎你能想到的 runtime 都有 SDK 示例。这不是一个"只能在 Python 里跑"的项目。
表情标签(Expression Tags)
这个功能我觉得很有意思。Supertonic 3 支持 10 种内联表情标签,比如 <laugh>(笑声)、<breath>(呼吸)、<sigh>(叹气)。你不需要写 prompt,不需要提供参考音频,直接在文本里插入标签,生成的语音就会带有自然的人类语气。
比如这样一段文本:
今天终于完成了这个项目<sigh>,<laugh>大家辛苦了!
生成的语音会在"这个项目"后面有一个叹气声,然后是笑声。这种自然的语气变化,在过去需要专业的语音演员录制,现在可以通过标签控制。
Voice Builder:零样本声音克隆
Supertone 还上线了 Voice Builder,支持零样本声音克隆。你上传一段目标语音样本,系统会生成对应的声音配置文件(JSON 格式),然后你可以用这个配置来生成任意文本的语音。
更实用的是,Voice Builder 现在同时支持 Supertonic 2 和 Supertonic 3 的 JSON 文件下载。如果你之前创建过 Supertonic 2 的声音配置,可以直接从 My Page 获取对应的 Supertonic 3 版本。
什么时候该用它,什么时候不该用
适合的场景:
- 需要在 App/网站中嵌入 TTS 功能,但不想依赖外部 API
- 对数据隐私有严格要求的场景(医疗、金融)
- 多语言内容批量生成(有声书、教育内容)
- 边缘设备部署(Raspberry Pi、嵌入式设备)
- 需要 OpenAI 兼容 API 但想控制成本的团队
不太适合的场景:
- 需要极致自然度、几乎无法区分真人的场景(比如电影配音——虽然效果不错,但离专业配音演员还有距离)
- 需要实时流式输出的场景(Supertonic 3 是批处理模式)
- 对特定音色有极高要求的商业项目
竞争格局
Supertonic 不是第一个开源 TTS,也不是第一个支持多语言的。但在 2026 年的开源 TTS 生态中,它的定位比较独特:在参数量、语言数量、部署灵活性之间取得了一个难得的平衡。
Kokoro TTS 更小(~82M 参数),但语言支持有限。VITS 类模型质量不错,但部署复杂度高。Supertonic 3 通过 ONNX Runtime 的统一推理引擎,把部署难度降到了"pip install"的级别。
加上刚发布的 supertonic serve 命令,它现在可以直接替代 OpenAI 的 TTS API——对于那些想控制成本、保护数据隐私的团队来说,这是一个非常实际的选择。
结论
Supertonic 3 不是那种"技术上最前沿"的模型。它的创新更多体现在工程层面:用更小的参数量做到可用的质量、支持尽可能多的语言、提供尽可能多的 runtime SDK、让部署尽可能简单。
在 AI 工具领域,有时候"够用 + 好用"比"最先进"更重要。Supertonic 3 走的就是这条路。