Supertonic 3：99M 参数、31 种语言、本地运行——这个 TTS 工具凭什么取代云端 API

做产品的人大概都遇到过这个场景：你想在 App 里加个语音朗读功能，但 TTS API 的价格让你犹豫；你担心用户的隐私数据被传到云端；你需要的语言刚好不在支持列表里。

Supertonic 3 把这三个问题一起解决了。

上周，韩国音频技术公司 Supertone 正式发布了 Supertonic 3 的 Python SDK v1.3.1，新增了 supertonic serve 命令——你可以在本地启动一个 HTTP 服务器，暴露原生的 /v1/tts 端点和 OpenAI 兼容的 /v1/audio/speech 端点。这意味着任何用 OpenAI TTS API 的项目，只需要改一个 URL 就能切换到本地部署。

几个硬数据

先看最核心的指标：

99M 参数。 目前开源的 TTS 模型大多是 0.7B 到 2B 参数级别。Supertonic 3 用不到 1/7 的参数量做到了相当的水平——这对部署成本的影响是直接的。更小的模型意味着更快的冷启动速度、更低的内存占用，以及更重要的——能在没有 GPU 的设备上运行。

31 种语言。 阿拉伯语、日语、韩语、越南语、印地语……覆盖范围相当广。而且它支持 lang="na" 模式——你不知道输入文本是什么语言？没关系，Supertonic 会自动用语言无关的方式处理。这个设计在实际应用中非常实用，因为你经常无法预先确定用户输入的语言。

44.1kHz / 16-bit WAV 输出。 不是压缩过的 mp3，不是 22kHz 的低采样率，而是直接的录音室级音频输出。对于播客制作、有声书、教育内容等场景，这个质量是够用的。

ONNX Runtime 驱动。 支持 Python、Node.js、浏览器 WebGPU、Java、C++、C#、Go、Swift、iOS、Rust、Flutter——几乎你能想到的 runtime 都有 SDK 示例。这不是一个"只能在 Python 里跑"的项目。

表情标签（Expression Tags）

这个功能我觉得很有意思。Supertonic 3 支持 10 种内联表情标签，比如 <laugh>（笑声）、<breath>（呼吸）、<sigh>（叹气）。你不需要写 prompt，不需要提供参考音频，直接在文本里插入标签，生成的语音就会带有自然的人类语气。

比如这样一段文本：

今天终于完成了这个项目<sigh>，<laugh>大家辛苦了！

生成的语音会在"这个项目"后面有一个叹气声，然后是笑声。这种自然的语气变化，在过去需要专业的语音演员录制，现在可以通过标签控制。

Voice Builder：零样本声音克隆

Supertone 还上线了 Voice Builder，支持零样本声音克隆。你上传一段目标语音样本，系统会生成对应的声音配置文件（JSON 格式），然后你可以用这个配置来生成任意文本的语音。

更实用的是，Voice Builder 现在同时支持 Supertonic 2 和 Supertonic 3 的 JSON 文件下载。如果你之前创建过 Supertonic 2 的声音配置，可以直接从 My Page 获取对应的 Supertonic 3 版本。

什么时候该用它，什么时候不该用

适合的场景：

需要在 App/网站中嵌入 TTS 功能，但不想依赖外部 API
对数据隐私有严格要求的场景（医疗、金融）
多语言内容批量生成（有声书、教育内容）
边缘设备部署（Raspberry Pi、嵌入式设备）
需要 OpenAI 兼容 API 但想控制成本的团队

不太适合的场景：

需要极致自然度、几乎无法区分真人的场景（比如电影配音——虽然效果不错，但离专业配音演员还有距离）
需要实时流式输出的场景（Supertonic 3 是批处理模式）
对特定音色有极高要求的商业项目

竞争格局

Supertonic 不是第一个开源 TTS，也不是第一个支持多语言的。但在 2026 年的开源 TTS 生态中，它的定位比较独特：在参数量、语言数量、部署灵活性之间取得了一个难得的平衡。

Kokoro TTS 更小（~82M 参数），但语言支持有限。VITS 类模型质量不错，但部署复杂度高。Supertonic 3 通过 ONNX Runtime 的统一推理引擎，把部署难度降到了"pip install"的级别。

加上刚发布的 supertonic serve 命令，它现在可以直接替代 OpenAI 的 TTS API——对于那些想控制成本、保护数据隐私的团队来说，这是一个非常实际的选择。

结论

Supertonic 3 不是那种"技术上最前沿"的模型。它的创新更多体现在工程层面：用更小的参数量做到可用的质量、支持尽可能多的语言、提供尽可能多的 runtime SDK、让部署尽可能简单。

在 AI 工具领域，有时候"够用 + 好用"比"最先进"更重要。Supertonic 3 走的就是这条路。

几个硬数据

表情标签（Expression Tags）

Voice Builder：零样本声音克隆

什么时候该用它，什么时候不该用

竞争格局

结论

相关内容

CloakBrowser：30/30 反检测测试全通过的隐身浏览器，18,500 星

CodeGraph：让 Claude Code 和 Cursor 省 35% Token 的代码知识图谱工具

Cognee：6 行代码给 AI Agent 装上记忆系统，17k star 的背后是刚需