语音交互这件事,一直被大厂垄断。
OpenAI 有 Realtime API,Google 有 Gemini Live,微软有 Azure Speech——但这些都是闭源的商业服务。你想自建一个语音 Agent?没那么容易。
直到 Dograh 出现。
Dograh 是什么
Dograh 是一个开源的语音 Agent 平台。2,100+ star,431 fork,昨天刚发布了 1.30.1 版本。
它的定位很明确:让任何人都能搭建自己的语音 AI Agent,不需要依赖任何商业云服务。
核心能力
Dograh 不是一个简单的语音转文字工具。它是一个完整的语音 Agent 平台,包含:
- 多模型支持:已经内置 OpenAI Realtime 模型支持,可以接入多种语音 AI 后端
- STT 增强:支持自定义词典来提升语音识别的准确率,特别是在专业术语场景下
- 工作流引擎:可以通过 SDK 创建工作流,串联多个语音处理步骤
- 完整的 API:提供 RESTful API 和 SDK,方便集成到你的应用中
- 可部署性:支持本地部署,也提供了多种部署模板
技术细节
从项目结构来看,Dograh 是一个相当成熟的工程:
- 468 commits 的迭代历史
- 支持 coturn(TURN/STUN 服务器)配置,处理 NAT 穿透问题
- 包含完整的评估框架(evals),用来测试语音 Agent 的质量
- 提供示例代码和文档
- 使用 nginx 做反向代理和负载均衡
为什么值得关注
语音交互是 AI Agent 最重要的交互方式之一。但目前市场上几乎全是闭源方案。Dograh 填补了这个空白。
想象一下这些场景:
- 自建一个语音客服系统,数据完全掌握在自己手里
- 给智能家居加一个语音交互层,不需要依赖任何云平台
- 做一个语音翻译 Agent,可以离线运行
这些在过去需要大量工程投入才能实现的事情,现在有了一个开源的基础平台。
现状和局限
Dograh 还在早期阶段。2,100 star 不算少,但离大规模生产可用还有距离。文档、社区、生态都还在建设中。
但方向是对的。语音 Agent 的开源化是必然趋势,Dograh 是第一批认真做这件事的项目之一。