微软开源 VibeVoice：支持 ASR、TTS 和语音克隆的前沿语音 AI 模型

微软近期在 GitHub 开源了 VibeVoice 项目，将其语音 AI 技术栈以开放许可发布。该项目截至 4 月底已获得 45,709 个 Star 和 5,100+ 次 Fork，是当前 GitHub 上最活跃的语音 AI 开源项目之一。

VibeVoice 不是单一模型，而是一个覆盖语音识别（ASR）、语音合成（TTS）和语音克隆的完整工具链。项目目录结构清晰：vibevoice/ 包含核心模型代码，demo/ 提供 Gradio 交互式界面，finetuning-asr/ 支持自定义 ASR 微调，vllm_plugin/ 则实现了与 vLLM 推理引擎的集成。

从提交活跃度来看，项目在过去两周内有多次实质性更新：ASR demo 增加了 MPS/Apple Silicon 支持、vLLM 插件修复了音频时长校验的 OOM 问题、文档和贡献指南也持续完善。截至 4 月底，项目已有 134 次提交和 796 次历史提交记录（不同分支合并计算）。

值得注意的是，VibeVoice 选择了实用的工程化路线。vLLM 插件的加入意味着它可以接入现有的大模型推理基础设施，降低部署门槛。Apple Silicon 支持则让 Mac 用户可以直接在本地运行 ASR demo，无需依赖 GPU 服务器。

对于需要语音能力的开发者来说，VibeVoice 值得关注的原因在于它的完整性——大多数开源语音项目只做 ASR 或 TTS 中的一个环节，而 VibeVoice 尝试覆盖全链路。但作为新开源项目，社区生态和文档成熟度还需要时间验证，建议先跑通 demo 再评估是否适合生产环境。

主要来源：

Microsoft VibeVoice GitHub

相关内容

awesome-codex-skills 单日涨星 1177，Codex 技能生态正在爆发

AgentField：把 AI Agent 当 Pod 管理——AI 原生基础设施的新玩家

微软开源 Agent Lightning：零侵入式 RL 训练框架，让任何 AI Agent 可优化