清华 OpenBMB 发布 VoxCPM2：开源语音模型完全去掉 Tokenizer，声音克隆进入新阶段

核心结论

清华大学 OpenBMB 团队发布的 VoxCPM2 开源语音模型，采用了一种激进的架构设计——完全去掉 tokenizer，直接在原始音频空间进行建模。这不是对现有 TTS 方案的渐进式改进，而是一条全新的技术路线：当其他团队还在优化 token 数量和编码效率时，VoxCPM2 选择直接绕过了这个中间层。

发生了什么

VoxCPM2 的核心理念可以用一句话概括：你的声音不再需要被"翻译"成 token 才能被理解和复制。

传统 TTS（文本转语音）系统的典型流程：

文本 → Tokenizer → Token 序列 → 声学模型 → 声码器 → 音频输出

VoxCPM2 的新流程：

文本 + 参考音频 → 端到端模型 → 音频输出

技术突破

维度	传统 TTS 方案	VoxCPM2
Tokenizer	必需，将声音离散化为 token	完全去掉
声音克隆	需要大量目标语音样本微调	参考音频即可零样本克隆
信息损失	Token 化过程丢失高频细节	端到端建模保留完整频谱
多语言	需要为每种语言训练单独 tokenizer	原生支持，无语言边界
推理延迟	Token 序列越长延迟越高	固定步长，延迟稳定

为什么去掉 Tokenizer 很重要

1. 减少信息损失

将连续音频信号离散化为 token 的过程本质上是有损压缩。高频细节、情感色彩、微妙音色变化在 token 化过程中可能被丢失。VoxCPM2 直接在连续空间建模，理论上可以保留更多原始音频的细腻特征。

2. 零样本声音克隆

传统方案需要为目标声音收集大量样本并微调模型，而 VoxCPM2 只需一段简短的参考音频即可完成声音克隆。这对于个人声音数字化和多角色语音生成场景有直接应用价值。

3. 多语言原生支持

没有 tokenizer 意味着没有语言边。模型不需要为中文、英文、日文分别训练不同的编码方案，理论上可以在任意语言之间无缝切换。

对标分析

在开源语音模型领域，VoxCPM2 的直接竞争对手包括：

模型	发布方	Tokenizer	声音克隆	开源协议
VoxCPM2	清华 OpenBMB	无	零样本	开源
CosyVoice	阿里通义	有	少样本	开源
Fish Speech	社区	有	零样本	开源
OpenVoice	MyShell	有	零样本	开源

VoxCPM2 的独特之处在于它是目前唯一一个完全去掉 tokenizer 的主流开源语音模型。这个架构选择带来的风险是训练难度更大、计算资源需求更高，但如果成功，将在声音质量和跨语言能力上形成显著壁垒。

实际应用场景

个人声音数字化

只需录制 30 秒参考音频，即可生成你声音的 AI 副本，用于内容创作、客服系统或个人助手。

多语言内容本地化

将一段中文语音内容直接转换为英文、日文等语言的语音输出，同时保持说话人的音色特征。

角色配音自动化

为游戏、动画或教育内容快速生成多角色配音，无需专业配音演员参与。

风险提示

声音安全：零样本声音克隆降低了技术门槛，也增加了深度伪造的风险
计算成本：无 token 化架构可能在推理时需要更多 GPU 资源
开源成熟度：作为新发布的模型，生态工具和社区支持仍在建设中

格局判断

VoxCPM2 代表了一种反共识的技术路线——在所有人都围绕 tokenizer 做优化的时候，OpenBMB 选择直接去掉它。如果这条路线被证明可行，将引发语音 AI 领域的架构重新思考。

对于开发者和企业来说，值得关注的信号是：当语音模型不再依赖 tokenizer 时，声音克隆的门槛将进一步降低，个人声音数字化的商业机会正在加速到来。