Mistral Voxtral TTSオープンソース：90ミリ秒の音声生成が音声市場を揺るがす

Mistralの音声AIスイートがついに完成した。

3月26日、フランスのAI企業Mistral AIがオープンソースのテキスト音声変換モデルVoxtral TTSを発表した。バッチ文字起こしと低遅延リアルタイム文字起こしモデルに続く、Mistralの音声赛道における第三のピースだ。「聴く」から「話す」まで、完全なエンドツーエンド音声処理プラットフォームがオープンソース化された。

90ミリ秒の意味

初音遅延90ミリ秒。これはどのレベルか？

ElevenLabsの遅延は約200〜300ミリ秒の範囲にある。使えないわけではないが、リアル会話のシナリオでは200ミリ秒の間隔ですでに「相手が考えている」感じがする。90ミリ秒は人間の自然な会話の反応速度にほぼ近い。

もちろん、遅延は一つの指標に過ぎない。音質、感情表現、多言語対応、カスタム音色——これらがTTSモデルの実際の採用を決定する鍵だ。

コミュニティのフィードバックによると、Voxtral TTSの音質はオープンソースモデルの中で第一梯队に属するが、感情の繊細さと音色の多様性ではElevenLabsに差がある。ただし差は縮まっており、しかもオープンソースだ。

主な情報源：

Mistral AI公式発表
TechCrunch報道
Hugging Faceモデルページ

90ミリ秒の意味

関連コンテンツ

9Router：Claude Code、Cursor、Codexを40+の無料モデルソースにルーティング、RTKで40%トークン節約

AiToEarn：AIでお金を稼ぐオープンソースフレームワーク、名前騙されるな

bolt.diy：Bolt.newのオープンソース版、AI全栈開発をクラウドからローカルへ