Microsoft VibeVoice：4.4万星のオープンソース音声AI、60分オーディオを一括処理

議事録やポッドキャストの処理経験がある人は、この壁にぶつかったことがあるでしょう：1時間のオーディオを音声認識サービスに投げると、いくつかのセグメントに切り分けられ、カットポイントでコンテキストが失われ、話者情報が消え、後処理で全部つなぎ直す羽目になります。

マイクロソフトのオープンソースVibeVoiceは、まさにこの痛点を解決します——60分のオーディオをモデルの一度のパスで処理、切片不要。話者分離も内蔵されており、誰が何を言ったかを別のモデルで識別する必要がありません。

GitHubで44,746星に到達、本日だけで1,523星を追加しました。

何ができるか

OpenAIのWhisperなどの従来の音声認識モデルは、長尺オーディオをセグメントに分割して個別に処理します。これにより2つの問題が生じます：

VibeVoiceのアーキテクチャは、最大60分のオーディオをシングルパスで処理可能で、全程コンテキストの一貫性を維持します。ASRに加え、TTSとファインチューニングモジュールも含む、完全な音声AIツールキットです。

コア機能：

コスト面では、ローカル実行で转录費用ゼロ。Whisper API（約$0.36/時間）、Deepgram（約$0.26/時間）、ElevenLabs（約$0.40/時間）と比較すると、高頻度使用のシナリオではローカルデプロイの回収期間は短い。

プロジェクトにはGradio Demoが付属し、WebインターフェースでASRとTTSを直接体験できます。本番環境にはDockerデプロイメントがサポートされています。

GPUマシンがあれば、最小パスは以下の通り：

git clone https://github.com/microsoft/VibeVoice.git
cd VibeVoice
# READMEに従って依存関係をインストール
# Gradioデモを起動
python demo/app.py

Apple SiliconユーザーはMPSバックエンドでMac上で直接実行可能——外部GPUは不要。

プロジェクトは新しく、いくつかの追加点：

中国語の精度：50+言語は公式発表だが、言語ごとの実際の性能はコミュニティの検証が必要
VRAM要件：60分シングルパス処理はVRAMに高い要求。低スペックマシンはバッチサイズ調整が必要
Whisper-large-v3との比較：VibeVoiceの差別化は長尺オーディオと話者分離だが、短尺オーディオや高ノイズシナリオでのギャップは実測が必要

開発アクティビティは健全：134コミット、112クローズIssue、32の進行中PR。