VoxCPM2 от Tsinghua OpenBMB: открытая голосовая модель полностью убирает токенизатор, клонирование голоса вступает в новую фазу

Ключевой вывод

Открытая голосовая модель VoxCPM2, выпущенная командой OpenBMB Цинхуаского университета, использует радикальный архитектурный дизайн — полное устранение токенизатора и моделирование непосредственно в пространстве сырого аудио. Это не постепенное улучшение существующих TTS-решений, а совершенно новый технический маршрут: пока другие команды оптимизируют количество токенов и эффективность кодирования, VoxCPM2 полностью обходит этот промежуточный слой.

Что произошло

Ключевую идею VoxCPM2 можно сформулировать одним предложением: ваш голос больше не нужно «переводить» в токены, чтобы его понять и воспроизвести.

Типичный пайплайн традиционных систем TTS (текст в речь):

Текст → Токенизатор → Последовательность токенов → Акустическая модель → Вокодер → Аудиовыход

Пайплайн VoxCPM2:

Текст + Референсное аудио → End-to-End модель → Аудиовыход

Технические прорывы

Параметр	Традиционный TTS	VoxCPM2
Токенизатор	Обязателен, дискретизирует звук в токены	Полностью устранён
Клонирование голоса	Требует множества образцов целевого голоса для файнтюнинга	Zero-shot клонирование по референсному аудио
Потеря информации	Токенизация теряет высокочастотные детали	End-to-End моделирование сохраняет полный спектр
Многоязычность	Отдельный токенизатор для каждого языка	Нативная поддержка, без языковых границ
Задержка вывода	Чем длиннее последовательность токенов, тем выше задержка	Фиксированный шаг, стабильная задержка

Почему устранение токенизатора важно

1. Снижение потери информации

Процесс дискретизации непрерывного аудиосигнала в токены по своей природе является сжатием с потерями. Высокочастотные детали, эмоциональная окраска и тонкие вариации тембра могут быть потеряны в процессе токенизации. VoxCPM2 моделирует непосредственно в непрерывном пространстве, теоретически сохраняя больше нюансов исходного аудио.

2. Zero-shot клонирование голоса

Традиционные решения требуют сбора большого количества образцов целевого голоса и файнтюнинга модели, тогда как VoxCPM2 нуждается лишь в коротком референсном аудиофрагменте для завершения клонирования голоса. Это имеет прямое практическое применение для цифровизации личного голоса и генерации многоперсонажного голоса.

3. Нативная многоязычная поддержка

Отсутствие токенизатора означает отсутствие языковых границ. Модели не нужно обучать отдельные схемы кодирования для китайского, английского или японского языков — теоретически обеспечивается бесшовное переключение между любыми языками.

Сравнительный анализ

В пространстве открытых голосовых моделей прямыми конкурентами VoxCPM2 являются:

Модель	Издатель	Токенизатор	Клонирование голоса	Лицензия
VoxCPM2	Цинхуа OpenBMB	Нет	Zero-shot	Открытая
CosyVoice	Alibaba Tongyi	Да	Few-shot	Открытая
Fish Speech	Сообщество	Да	Zero-shot	Открытая
OpenVoice	MyShell	Да	Zero-shot	Открытая

Уникальность VoxCPM2 заключается в том, что это на данный момент единственная основная открытая голосовая модель, полностью исключающая токенизатор. Риск этого архитектурного выбора — более высокая сложность обучения и большие потребности в вычислительных ресурсах, но в случае успеха модель создаст значительные барьеры в качестве звука и кросс-языковых возможностях.

Практические сценарии применения

Цифровизация личного голоса

Запишите всего 30 секунд референсного аудио, чтобы создать AI-клон вашего голоса, пригодный для создания контента, систем обслуживания клиентов или личных ассистентов.

Многоязычная локализация контента

Преобразуйте китайский голосовой контент непосредственно в речь на английском, японском и других языках, сохраняя при этом голосовые характеристики диктора.

Автоматизация озвучивания персонажей

Быстрая генерация многоперсонажной озвучки для игр, анимации или образовательного контента без участия профессиональных актёров озвучивания.

Факторы риска

Безопасность голоса: Zero-shot клонирование голоса снижает технический порог, одновременно увеличивая риски дипфейков
Вычислительные затраты: Архитектура без токенизатора может требовать больше GPU-ресурсов при выводе
Зрелость открытого проекта: Как недавно выпущенная модель, экосистема инструментов и поддержка сообщества ещё находятся в процессе развития

Оценка рынка

VoxCPM2 представляет контрарный технический маршрут — пока все оптимизируют вокруг токенизатора, OpenBMB решил полностью его устранить. Если этот маршрут окажется жизнеспособным, это вызовет переосмысление архитектуры во всей области голосового AI.

Для разработчиков и предприятий сигнал, за которым стоит следить: когда голосовые модели больше не зависят от токенизаторов, барьер для клонирования голоса снизится ещё больше, и коммерческие возможности цифровизации личного голоса ускоряются.