C
ChaoBro

Mistral Voxtral TTS с открытым исходным кодом: генерация голоса за 90 мс встряхивает рынок речи

Mistral Voxtral TTS с открытым исходным кодом: генерация голоса за 90 мс встряхивает рынок речи

Набор инструментов для речи от Mistral наконец завершён.

26 марта французская компания Mistral AI выпустила Voxtral TTS — модель преобразования текста в речь с открытым кодом. Это третий элемент в серии речевых моделей Mistral — после пакетной транскрипции и модели транскрипции с низкой задержкой. От «слушания» до «говорения» — полная платформа обработки речи теперь с открытым кодом.

Что означают 90 миллисекунд

Задержка первого звука 90 миллисекунд. Каков этот уровень?

ElevenLabs находится в диапазоне 200-300 миллисекунд. Не непригодно, но в сценариях реального разговора интервал в 200 мс уже ощущается как «собеседник думает». 90 мс близко к естественной скорости реакции в человеческой беседе.

Конечно, задержка — лишь один из показателей. Качество звука, эмоциональная выразительность, поддержка нескольких языков, кастомные голоса — вот что определяет, будет ли модель TTS реально использоваться.

По отзывам сообщества, качество звука Voxtral TTS входит в первый эшелон среди моделей с открытым кодом, но уступает ElevenLabs в эмоциональной нюансировке и разнообразии голосов. Разрыв сокращается, и это открытый код.

Основные источники:

  • Официальное объявление Mistral AI
  • Репортаж TechCrunch
  • Страница модели на Hugging Face