微软近期在 GitHub 开源了 VibeVoice 项目,将其语音 AI 技术栈以开放许可发布。该项目截至 4 月底已获得 45,709 个 Star 和 5,100+ 次 Fork,是当前 GitHub 上最活跃的语音 AI 开源项目之一。
VibeVoice 不是单一模型,而是一个覆盖语音识别(ASR)、语音合成(TTS)和语音克隆的完整工具链。项目目录结构清晰:vibevoice/ 包含核心模型代码,demo/ 提供 Gradio 交互式界面,finetuning-asr/ 支持自定义 ASR 微调,vllm_plugin/ 则实现了与 vLLM 推理引擎的集成。
从提交活跃度来看,项目在过去两周内有多次实质性更新:ASR demo 增加了 MPS/Apple Silicon 支持、vLLM 插件修复了音频时长校验的 OOM 问题、文档和贡献指南也持续完善。截至 4 月底,项目已有 134 次提交和 796 次历史提交记录(不同分支合并计算)。
值得注意的是,VibeVoice 选择了实用的工程化路线。vLLM 插件的加入意味着它可以接入现有的大模型推理基础设施,降低部署门槛。Apple Silicon 支持则让 Mac 用户可以直接在本地运行 ASR demo,无需依赖 GPU 服务器。
对于需要语音能力的开发者来说,VibeVoice 值得关注的原因在于它的完整性——大多数开源语音项目只做 ASR 或 TTS 中的一个环节,而 VibeVoice 尝试覆盖全链路。但作为新开源项目,社区生态和文档成熟度还需要时间验证,建议先跑通 demo 再评估是否适合生产环境。
主要来源: