Какой проект в области синтеза речи с открытым исходным кодом сейчас самый популярный? Это не ElevenLabs и не Microsoft VibeVoice, а промышленная TTS-система от китайских разработчиков — IndexTTS (20,3 тыс. звёзд и 2,5 тыс. форков на GitHub).
На прошлой неделе сообщество выпустило сборку V26 — это не обновление из официального основного репозитория, а глубоко кастомизированная версия, созданная разработчиками сообщества на базе ядра IndexTTS. Ключевые преимущества можно описать тремя словами: многосторонний диалог, управление голосами, скачок скорости.
Озвучка диалогов на 8 человек: от «чтения вслух одним голосом» к «целому спектаклю»
Предыдущие инструменты TTS с открытым исходным кодом поддерживали чередование речи максимум двух-трёх персонажей. V26 сразу подняла этот потолок до 8 человек.
Что это значит? Вы можете написать текстовый сценарий, прописать реплики для 8 персонажей, и система автоматически сопоставит каждому персонажу соответствующий голос, создав полноценную многоперсонажную аудиозапись диалога. Не нужно вручную переключать модели для каждой фразы, не нужно монтировать — всё делается в один шаг.
Типичные сценарии применения:
- Озвучка аудиокниг: каждому персонажу назначается свой голос, автоматически генерируется интерактивный диалог
- Радиопостановки / подкасты: формат с несколькими ведущими и гостями
- Диалоги NPC в играх: массовая генерация голосов персонажей
Постоянное хранение библиотеки голосов: больше не нужно каждый раз загружать аудио
V26 внедрила функцию управления библиотекой голосов. Раньше при клонировании голоса через IndexTTS каждый раз требовалось загружать эталонную аудиозапись для извлечения характеристик голоса. Теперь вы можете:
- Загрузить эталонное аудио, извлечь и сохранить характеристики голоса в локальную библиотеку
- Дать каждому голосу имя и теги
- В дальнейшем использовать голос напрямую из библиотеки, без повторной загрузки
Это критически важно для проектов с фиксированными голосами персонажей (например, для серийного аудиоконтента). Файлы характеристик голоса занимают совсем мало места — сотни голосов не отнимут значительного объёма хранилища.
Ускорение в 10 раз: эффективность вывода наконец стала пригодной для использования
V26 заявляет об увеличении скорости вывода по сравнению с предыдущими версиями в 10 раз.
IndexTTS построен на архитектуре GPT (аналогично XTTS и Tortoise), и у таких авторегрессивных TTS-моделей есть старая проблема — они медленные. Генерация нескольких минут аудио может занять десять с лишним минут. Если заявленное сообществом 10-кратное ускорение соответствует действительности, это означает, что аудио, которое раньше занимало 10 минут, теперь будет готово за 1 минуту.
Возможные направления оптимизации:
- Интеграция vLLM: в экосистеме IndexTTS уже существует проект
index-tts-vllm(1,1 тыс. звёзд), использующий PagedAttention от vLLM для ускорения вывода - Квантование и сжатие: использование GGUF или INT8-квантования для уменьшения размера модели и вычислительных затрат
- Спекулятивное декодирование (Speculative Decoding): маленькая модель быстро создаёт черновик, большая модель его проверяет
Управление эмоциями: ИИ больше не просто «читает по бумажке»
V26 также расширила возможности контроля эмоциональной выразительности. Предыдущие TTS-модели часто генерировали речь «без эмоций», V26 же позволяет задать эмоциональную окраску при генерации, чтобы выходная речь несла оттенки радости, гнева, грусти и других чувств.
В сочетании с функцией клонирования голоса это означает: вы можете использовать один голос, с определённой эмоцией, для произнесения любого текста. Для создания аудиоконтента это ключевой шаг от «работает» к «работает хорошо».
Что такое IndexTTS?
IndexTTS — это промышленная система преобразования текста в речь с нулевым образцом, построенная на архитектуре GPT, всесторонне улучшенная на базе XTTS и Tortoise. Ключевые возможности:
- Клонирование голоса с нулевым образцом: достаточно нескольких секунд эталонного аудио для воспроизведения голоса
- Поддержка нескольких языков: отличная обработка китайского и английского, встроенный механизм коррекции пиньинь
- Точный контроль пауз: сгенерированная речь звучит естественно по ритму
- Десятки тысяч часов обучающих данных: качество и сходство речи лидируют в отрасли
С момента публикации проект быстро набрал 20,3 тыс. звёзд, войдя в первый эшелон TTS-проектов с открытым исходным кодом. Экосистема сообщества также очень активна: узел интеграции ComfyUI (682 звезды), ускоренная версия vLLM (1,1 тыс. звёзд), несколько производных проектов, включая сборку WebUI.
Сравнение с аналогичными проектами
| Проект | Звёзды | Многосторонний диалог | Управление голосами | Управление эмоциями | Скорость |
|---|---|---|---|---|---|
| IndexTTS V26 (Community) | 20,3 тыс. | ✅ 8 человек | ✅ Постоянное хранение | ✅ Управляемые | 🚀 Оптимизация ×10 |
| Microsoft VibeVoice | 45,7 тыс. | ❌ | ❌ | ❌ | Средняя |
| Voice-Pro | 3,2 тыс. | ✅ 2 человека | Базовое | ❌ | Средняя |
| Qwen3-TTS | 8,5 тыс. | ❌ | ❌ | Базовое | Быстрая |
| VoxCPM 2 | 6,1 тыс. | ✅ Многосторонний | Базовое | ✅ | Средняя |
Преимущество IndexTTS заключается в наиболее активной экосистеме сообщества, наибольшем количестве сборок и производных инструментов. У Microsoft VibeVoice хотя и больше звёзд, но проект ориентирован больше на исследования, а уровень готовности «из коробки» уступает IndexTTS.
Можно ли запустить? Требования к оборудованию
По отзывам сообщества, минимальные требования для IndexTTS V26:
- Видеокарта: уровня RTX 3060 / 4060 достаточно (от 6 ГБ видеопамяти)
- Оперативная память: рекомендуется от 16 ГБ
- Хранилище: файлы моделей — около 2–4 ГБ
Для индивидуальных разработчиков с потребительским GPU этот порог не высок. Сообщество также предоставляет сборку «в один клик» (распространяется через Quark Cloud Drive) — не нужно настраивать окружение, просто распакуйте и используйте.
Конкурентный ландшафт открытых TTS
В 2026 году область синтеза речи с открытым исходным кодом уже весьма переполнена:
- IndexTTS: промышленное клонирование с нулевым образцом, самая сильная экосистема сообщества
- Microsoft VibeVoice: полный цикл (ASR + TTS + клонирование), хорошая поддержка Apple Silicon
- VoxCPM 2: сильные способности к работе с диалектами, более низкие требования к оборудованию
- OmniVoice: сверхнизкая задержка, подходит для сценариев реального времени
- Qwen3-TTS: от Alibaba, отличное качество китайского и английского
Но первым проектом, который смог объединить многосторонние диалоги, управление голосами и управление эмоциями, при этом обеспечив приемлемую скорость, пока остаётся IndexTTS V26.
Основные источники:
- Репозиторий IndexTTS на GitHub
- Видео с тестированием на Bilibili (AI Ван Чжифэн)
- IndexTTS ускоренная версия vLLM
Читайте также: