Microsoft VibeVoice:4.4 万星开源语音 AI,60 分钟音频一次转录无切片

Microsoft VibeVoice:4.4 万星开源语音 AI,60 分钟音频一次转录无切片

处理过会议录音或者播客的人大概都遇到过这个问题:把一小时的音频丢给语音识别服务,它切成几段分别处理,结果上下文断了、说话人信息丢了、后处理还得自己拼回去。

微软开源的 VibeVoice 解决的就是这个痛点——60 分钟的音频可以一次性通过模型处理,不需要切片。与此同时,说话人分离(speaker diarization)是内置的,不需要额外跑一个模型来区分谁说了什么。

项目在 GitHub 上已经到了 44,746 星,仅今天新增了 1,523 星。

它做了什么

传统的语音识别模型(比如 OpenAI 的 Whisper 系列)处理长音频时会将其切片为小段,每段独立处理。这带来两个问题:

  1. 上下文断裂:切点附近的语义可能丢失,影响识别准确率
  2. 说话人信息丢失:跨片段的同一说话人无法被自动关联

VibeVoice 的架构设计允许单次通过处理最长 60 分钟的音频,全程保持上下文连贯。除了 ASR(语音识别)之外,项目还包含 TTS(语音合成)和 fine-tuning 模块,是一个完整的语音 AI 工具链。

核心能力:

  • 60 分钟音频单次处理:无需手动切片,无上下文丢失
  • 说话人分离:内置支持,自动标注不同说话人
  • 50+ 语言:覆盖主流语言及方言
  • 自定义热词:支持领域特定词汇的识别优化
  • vLLM 插件:高性能推理加速
  • Apple Silicon 支持:MPS 后端已适配

成本上,本地运行意味着转录费用为零。对比目前主流的语音转文字服务——Whisper API 约 $0.36/小时、Deepgram 约 $0.26/小时、ElevenLabs 约 $0.40/小时——对于高频使用的场景,本地部署的回本周期很短。

怎么用

项目提供了 Gradio Demo,可以通过 Web 界面直接体验 ASR 和 TTS 功能。对于生产环境,支持 Docker 部署。

如果你有一台带 GPU 的机器,最小上手路径大致是:

git clone https://github.com/microsoft/VibeVoice.git
cd VibeVoice
# 按照 README 安装依赖
# 启动 Gradio Demo
python demo/app.py

Apple Silicon 用户可以直接在 Mac 上通过 MPS 后端运行,不需要额外的 GPU。

还需要看什么

项目发布不久,几个值得跟进的点:

  • 中文识别准确率:官方宣称 50+ 语言覆盖,但各语言的实际表现需要社区验证。中文作为高价值场景,准确率表现值得单独关注
  • 显存需求:60 分钟音频一次处理对显存有较高要求,低配机器可能需要调整 batch size 或使用分块模式(如果有的话)
  • 和 Whisper-large-v3 的横向对比:VibeVoice 的差异化在于长音频和说话人分离,但在短音频、高噪声场景下,和 Whisper 的差距有多大还需要实测数据

项目目前 134 次提交,112 个已关闭 Issue,32 个 PR 进行中——开发节奏比较活跃。

主要来源