Supertonic 3: 99 млн параметров, 31 язык, локальный запуск — почему этот TTS-инструмент способен заменить облачные API

Разработчики продуктов наверняка сталкивались с такой ситуацией: вы хотите добавить функцию озвучивания текста в приложение, но цены на TTS API заставляют задуматься; вы беспокоитесь о том, что конфиденциальные данные пользователей будут отправлены в облако; а нужный вам язык просто отсутствует в списке поддерживаемых.

Supertonic 3 решает все три проблемы одновременно.

На прошлой неделе южнокорейская аудиотехнологическая компания Supertone официально выпустила Python SDK v1.3.1 для Supertonic 3, добавив команду supertonic serve. Теперь вы можете запустить локальный HTTP-сервер, который предоставит нативный эндпоинт /v1/tts и совместимый с OpenAI эндпоинт /v1/audio/speech. Это означает, что любой проект, использующий OpenAI TTS API, может перейти на локальное развертывание, просто изменив один URL.

Ключевые характеристики

Начнем с самых важных показателей:

99 млн параметров. Большинство открытых TTS-моделей сегодня имеют от 0,7 до 2 млрд параметров. Supertonic 3 достигает сопоставимого качества, используя менее 1/7 от этого объема параметров — это напрямую влияет на стоимость развертывания. Меньшая модель означает более быстрый холодный старт, меньшее потребление оперативной памяти и, что еще важнее, возможность работы на устройствах без GPU.

31 язык. Арабский, японский, корейский, вьетнамский, хинди… Охват действительно широкий. Кроме того, поддерживается режим lang="na" — вы не знаете, на каком языке введен текст? Не проблема, Supertonic автоматически обработает его независимо от языка. Эта функция крайне полезна на практике, поскольку вы часто не можете заранее определить язык пользовательского ввода.

Вывод в формате WAV 44,1 кГц / 16 бит. Это не сжатый mp3 и не низкая частота дискретизации 22 кГц, а прямой вывод аудио студийного качества. Для создания подкастов, аудиокниг и образовательного контента этого качества более чем достаточно.

Работает на ONNX Runtime. Поддерживаются Python, Node.js, браузерный WebGPU, Java, C++, C#, Go, Swift, iOS, Rust, Flutter — примеры SDK есть практически для любой среды выполнения. Это не проект, который «работает только в Python».

Теги эмоций (Expression Tags)

Эта функция показалась мне особенно интересной. Supertonic 3 поддерживает 10 встроенных тегов эмоций, таких как <laugh> (смех), <breath> (вдох/дыхание), <sigh> (вздох). Вам не нужно писать промпты или предоставлять референсное аудио — просто вставьте теги прямо в текст, и сгенерированная речь приобретет естественные человеческие интонации.

Например, такой текст:

Наконец-то сегодня завершил этот проект<sigh>, <laugh>все молодцы!

Сгенерированная речь будет содержать вздох после слов «этот проект», а затем смех. Такие естественные изменения интонации раньше требовали записи профессиональными дикторами, а теперь ими можно управлять с помощью тегов.

Voice Builder: клонирование голоса без примеров (zero-shot)

Supertone также запустила Voice Builder, поддерживающую zero-shot клонирование голоса. Вы загружаете образец целевого голоса, система генерирует соответствующий профиль голоса (в формате JSON), который затем можно использовать для синтеза речи из любого текста.

Что еще практичнее, Voice Builder теперь поддерживает одновременную загрузку JSON-файлов для Supertonic 2 и Supertonic 3. Если вы ранее создавали профиль голоса для Supertonic 2, вы можете напрямую получить его версию для Supertonic 3 со страницы My Page.

Когда стоит использовать, а когда нет

Подходящие сценарии:

Встраивание функции TTS в приложение/веб-сайт без зависимости от внешних API
Сценарии со строгими требованиями к конфиденциальности данных (медицина, финансы)
Массовая генерация многоязычного контента (аудиокниги, образовательные материалы)
Развертывание на периферийных устройствах (Raspberry Pi, встраиваемые системы)
Команды, которым нужен API, совместимый с OpenAI, но с контролем расходов

Неподходящие сценарии:

Сценарии, требующие максимальной естественности, практически неотличимой от человека (например, дубляж фильмов — качество хорошее, но до профессиональных актеров озвучки еще далеко)
Сценарии, требующие потокового вывода в реальном времени (Supertonic 3 работает в режиме пакетной обработки)
Коммерческие проекты с крайне высокими требованиями к конкретному тембру голоса

Конкурентный ландшафт

Supertonic — не первый открытый TTS и не первый многоязычный инструмент. Однако в экосистеме открытых TTS 2026 года его позиционирование довольно уникально: он нашел редкий баланс между количеством параметров, числом поддерживаемых языков и гибкостью развертывания.

Kokoro TTS еще компактнее (~82 млн параметров), но поддерживает меньше языков. Модели семейства VITS показывают хорошее качество, но сложны в развертывании. Supertonic 3 благодаря единому движку вывода на базе ONNX Runtime снижает сложность установки до уровня pip install.

А с учетом недавно выпущенной команды supertonic serve, он теперь может напрямую заменить TTS API от OpenAI — что является очень практичным выбором для команд, стремящихся контролировать расходы и защищать конфиденциальность данных.

Заключение

Supertonic 3 — это не та модель, которая претендует на статус «самой передовой в техническом плане». Его инновации лежат скорее в инженерной плоскости: достижение приемлемого качества при меньшем количестве параметров, поддержка максимально широкого спектра языков, предоставление SDK для большинства сред выполнения и максимальное упрощение процесса развертывания.

В сфере инструментов ИИ иногда «достаточно хорошо + удобно в использовании» важнее, чем «самый передовой». Supertonic 3 идет именно по этому пути.

Ключевые характеристики

Теги эмоций (Expression Tags)

Voice Builder: клонирование голоса без примеров (zero-shot)

Когда стоит использовать, а когда нет

Конкурентный ландшафт

Заключение

Похожие материалы

CloakBrowser: скрытый браузер, прошедший все 30/30 тестов на антидетект, 18 500 звёзд

CodeGraph: инструмент графа знаний кода, экономящий 35% токенов для Claude Code и Cursor

Cognee: 6 строк кода для системы памяти ИИ-агентов. За 17k звёзд стоит реальная потребность