C
ChaoBro

Supertonic 3:99Mパラメータ、31言語、ローカル実行――このTTSツールがクラウドAPIに取って代わる理由

Supertonic 3:99Mパラメータ、31言語、ローカル実行――このTTSツールがクラウドAPIに取って代わる理由

製品開発に携わる方なら、おそらく次のような経験があるでしょう。アプリに音声読み上げ機能を追加したいが、TTS APIのコストがネックになる。ユーザーのプライバシーデータがクラウドに送信されるのが心配だ。必要な言語がサポートリストに載っていない。

Supertonic 3は、この3つの課題を一度に解決します。

先週、韓国のオーディオ技術企業Supertoneは、Supertonic 3のPython SDK v1.3.1を正式リリースしました。新たに追加された supertonic serve コマンドにより、ローカル環境でHTTPサーバーを起動し、ネイティブの /v1/tts エンドポイントと OpenAI互換の /v1/audio/speech エンドポイントを公開できます。これにより、OpenAI TTS APIを利用しているプロジェクトは、URLを1つ書き換えるだけでローカルデプロイに切り替えることが可能です。

主要なスペック

まずは最も重要な指標から見ていきましょう。

99Mパラメータ。 現在オープンソース化されているTTSモデルの多くは0.7B〜2Bパラメータ規模です。Supertonic 3はその1/7未満のパラメータ数で同等の性能を実現しており、デプロイコストへの影響は直接的です。モデルが小さいほどコールドスタートが速く、メモリ使用量も抑えられ、さらに重要なのはGPUを搭載していないデバイスでも動作する点です。

31言語。 アラビア語、日本語、韓国語、ベトナム語、ヒンディー語など、カバー範囲は非常に広いです。さらに lang="na" モードもサポートしており、入力テキストの言語が不明でも問題ありません。Supertonicが言語に依存しない方法で自動的に処理してくれます。ユーザーの入力言語を事前に特定できないことが多い実際のアプリケーションにおいて、この設計は非常に実用的です。

44.1kHz / 16-bit WAV出力。 圧縮されたmp3や22kHzの低サンプリングレートではなく、スタジオ品質のオーディオを直接出力します。ポッドキャスト制作、オーディオブック、教育コンテンツなどのシナリオにおいて、この品質は十分に実用レベルです。

ONNX Runtime駆動。 Python、Node.js、ブラウザWebGPU、Java、C++、C#、Go、Swift、iOS、Rust、Flutterなど、考えられるほぼすべてのランタイム向けにSDKサンプルが用意されています。「Pythonでしか動かない」プロジェクトではありません。

表情タグ(Expression Tags)

この機能は非常に面白いと思います。Supertonic 3は10種類のインライン表情タグをサポートしており、例えば <laugh>(笑い声)、<breath>(呼吸)、<sigh>(ため息)などがあります。プロンプトを書く必要も、参照オーディオを提供する必要もありません。テキストに直接タグを挿入するだけで、生成される音声に自然な人間の語調が加わります。

例えば、次のようなテキストの場合:

今日ついにこのプロジェクトが完了しました<sigh>、<laugh>皆さんお疲れ様でした!

生成された音声は「このプロジェクト」の後にため息が挿入され、その後に笑い声が続きます。このような自然な語調の変化は、従来はプロの声優による録音が必要でしたが、現在ではタグで制御可能です。

Voice Builder:ゼロショット音声クローン

Supertoneはさらに、Voice Builder を公開し、ゼロショット音声クローンをサポートしています。ターゲットとなる音声サンプルをアップロードすると、システムが対応する音声プロファイル(JSON形式)を生成します。その後、このプロファイルを使用して任意のテキストの音声を生成できます。

さらに実用的な点として、Voice Builderは現在、Supertonic 2とSupertonic 3の両方のJSONファイルダウンロードに対応しています。以前にSupertonic 2の音声プロファイルを作成している場合、My Pageから直接対応するSupertonic 3バージョンを取得できます。

使うべき時と使うべきでない時

適したシナリオ:

  • アプリ/ウェブサイトにTTS機能を組み込みたいが、外部APIに依存したくない場合
  • データプライバシーに厳格な要件があるシナリオ(医療、金融など)
  • 多言語コンテンツの一括生成(オーディオブック、教育コンテンツなど)
  • エッジデバイスへのデプロイ(Raspberry Pi、組み込みデバイスなど)
  • OpenAI互換APIが必要だがコストを抑えたいチーム

適さないシナリオ:

  • 極めて高い自然度、人間とほぼ区別がつかないレベルが求められるシナリオ(映画の吹き替えなど。効果は良好ですが、プロの声優にはまだ及びません)
  • リアルタイムストリーミング出力が必要なシナリオ(Supertonic 3はバッチ処理モードです)
  • 特定の音色に極めて高い要求がある商業プロジェクト

競合環境

Supertonicが初のオープンソースTTSでも、初の多言語対応モデルでもありません。しかし、2026年のオープンソースTTSエコシステムにおいて、そのポジショニングは独特です:パラメータ数、対応言語数、デプロイの柔軟性の間で、稀有なバランスを実現しています。

Kokoro TTSはさらに小型(約82Mパラメータ)ですが、言語サポートは限定的です。VITS系モデルは品質が高いものの、デプロイの複雑度が高くなります。Supertonic 3はONNX Runtimeによる統一推論エンジンを通じて、デプロイの難易度を「pip install」レベルまで引き下げました。

新たにリリースされた supertonic serve コマンドと合わせ、現在ではOpenAIのTTS APIを直接代替できます。コストを抑え、データプライバシーを保護したいチームにとって、これは非常に現実的な選択肢です。

結論

Supertonic 3は「技術的に最先端」と呼ばれる類のモデルではありません。その革新性はむしろエンジニアリング面に表れています。より少ないパラメータ数で実用レベルの品質を実現し、可能な限り多くの言語をサポートし、多様なランタイムSDKを提供し、デプロイを可能な限りシンプルにしています。

AIツール分野において、時には「十分使える+使いやすい」ことが「最先端」よりも重要になります。Supertonic 3が歩んでいるのは、まさにその道です。