Набор инструментов для речи от Mistral наконец завершён.
26 марта французская компания Mistral AI выпустила Voxtral TTS — модель преобразования текста в речь с открытым кодом. Это третий элемент в серии речевых моделей Mistral — после пакетной транскрипции и модели транскрипции с низкой задержкой. От «слушания» до «говорения» — полная платформа обработки речи теперь с открытым кодом.
Что означают 90 миллисекунд
Задержка первого звука 90 миллисекунд. Каков этот уровень?
ElevenLabs находится в диапазоне 200-300 миллисекунд. Не непригодно, но в сценариях реального разговора интервал в 200 мс уже ощущается как «собеседник думает». 90 мс близко к естественной скорости реакции в человеческой беседе.
Конечно, задержка — лишь один из показателей. Качество звука, эмоциональная выразительность, поддержка нескольких языков, кастомные голоса — вот что определяет, будет ли модель TTS реально использоваться.
По отзывам сообщества, качество звука Voxtral TTS входит в первый эшелон среди моделей с открытым кодом, но уступает ElevenLabs в эмоциональной нюансировке и разнообразии голосов. Разрыв сокращается, и это открытый код.
Основные источники:
- Официальное объявление Mistral AI
- Репортаж TechCrunch
- Страница модели на Hugging Face