Mistral Voxtral TTS с открытым исходным кодом: генерация голоса за 90 мс встряхивает рынок речи

Набор инструментов для речи от Mistral наконец завершён.

26 марта французская компания Mistral AI выпустила Voxtral TTS — модель преобразования текста в речь с открытым кодом. Это третий элемент в серии речевых моделей Mistral — после пакетной транскрипции и модели транскрипции с низкой задержкой. От «слушания» до «говорения» — полная платформа обработки речи теперь с открытым кодом.

Что означают 90 миллисекунд

Задержка первого звука 90 миллисекунд. Каков этот уровень?

ElevenLabs находится в диапазоне 200-300 миллисекунд. Не непригодно, но в сценариях реального разговора интервал в 200 мс уже ощущается как «собеседник думает». 90 мс близко к естественной скорости реакции в человеческой беседе.

Конечно, задержка — лишь один из показателей. Качество звука, эмоциональная выразительность, поддержка нескольких языков, кастомные голоса — вот что определяет, будет ли модель TTS реально использоваться.

По отзывам сообщества, качество звука Voxtral TTS входит в первый эшелон среди моделей с открытым кодом, но уступает ElevenLabs в эмоциональной нюансировке и разнообразии голосов. Разрыв сокращается, и это открытый код.

Основные источники:

Официальное объявление Mistral AI
Репортаж TechCrunch
Страница модели на Hugging Face

Что означают 90 миллисекунд

Похожие материалы

SGLang и Miles обеспечивают поддержку DeepSeek-V4 в день выпуска

flue: сооснователь Astro открыл фреймворк песочницы для AI-агентов

LMSYS P2P-передача весов: синхронизация RL-обучения 1T параметров за секунды