Microsoft VibeVoice：4.4 万星开源语音 AI，60 分钟音频一次转录无切片

处理过会议录音或者播客的人大概都遇到过这个问题：把一小时的音频丢给语音识别服务，它切成几段分别处理，结果上下文断了、说话人信息丢了、后处理还得自己拼回去。

微软开源的 VibeVoice 解决的就是这个痛点——60 分钟的音频可以一次性通过模型处理，不需要切片。与此同时，说话人分离（speaker diarization）是内置的，不需要额外跑一个模型来区分谁说了什么。

项目在 GitHub 上已经到了 44,746 星，仅今天新增了 1,523 星。

它做了什么

传统的语音识别模型（比如 OpenAI 的 Whisper 系列）处理长音频时会将其切片为小段，每段独立处理。这带来两个问题：

VibeVoice 的架构设计允许单次通过处理最长 60 分钟的音频，全程保持上下文连贯。除了 ASR（语音识别）之外，项目还包含 TTS（语音合成）和 fine-tuning 模块，是一个完整的语音 AI 工具链。

核心能力：

成本上，本地运行意味着转录费用为零。对比目前主流的语音转文字服务——Whisper API 约 $0.36/小时、Deepgram 约 $0.26/小时、ElevenLabs 约 $0.40/小时——对于高频使用的场景，本地部署的回本周期很短。

项目提供了 Gradio Demo，可以通过 Web 界面直接体验 ASR 和 TTS 功能。对于生产环境，支持 Docker 部署。

如果你有一台带 GPU 的机器，最小上手路径大致是：

git clone https://github.com/microsoft/VibeVoice.git
cd VibeVoice
# 按照 README 安装依赖
# 启动 Gradio Demo
python demo/app.py

Apple Silicon 用户可以直接在 Mac 上通过 MPS 后端运行，不需要额外的 GPU。

项目发布不久，几个值得跟进的点：

中文识别准确率：官方宣称 50+ 语言覆盖，但各语言的实际表现需要社区验证。中文作为高价值场景，准确率表现值得单独关注
显存需求：60 分钟音频一次处理对显存有较高要求，低配机器可能需要调整 batch size 或使用分块模式（如果有的话）
和 Whisper-large-v3 的横向对比：VibeVoice 的差异化在于长音频和说话人分离，但在短音频、高噪声场景下，和 Whisper 的差距有多大还需要实测数据

项目目前 134 次提交，112 个已关闭 Issue，32 个 PR 进行中——开发节奏比较活跃。