C
ChaoBro

Dograh:开源语音 Agent 平台,让 AI 开口说话不再是大厂专利

Dograh:开源语音 Agent 平台,让 AI 开口说话不再是大厂专利

语音交互这件事,一直被大厂垄断。

OpenAI 有 Realtime API,Google 有 Gemini Live,微软有 Azure Speech——但这些都是闭源的商业服务。你想自建一个语音 Agent?没那么容易。

直到 Dograh 出现。

Dograh 是什么

Dograh 是一个开源的语音 Agent 平台。2,100+ star,431 fork,昨天刚发布了 1.30.1 版本。

它的定位很明确:让任何人都能搭建自己的语音 AI Agent,不需要依赖任何商业云服务。

核心能力

Dograh 不是一个简单的语音转文字工具。它是一个完整的语音 Agent 平台,包含:

  • 多模型支持:已经内置 OpenAI Realtime 模型支持,可以接入多种语音 AI 后端
  • STT 增强:支持自定义词典来提升语音识别的准确率,特别是在专业术语场景下
  • 工作流引擎:可以通过 SDK 创建工作流,串联多个语音处理步骤
  • 完整的 API:提供 RESTful API 和 SDK,方便集成到你的应用中
  • 可部署性:支持本地部署,也提供了多种部署模板

技术细节

从项目结构来看,Dograh 是一个相当成熟的工程:

  • 468 commits 的迭代历史
  • 支持 coturn(TURN/STUN 服务器)配置,处理 NAT 穿透问题
  • 包含完整的评估框架(evals),用来测试语音 Agent 的质量
  • 提供示例代码和文档
  • 使用 nginx 做反向代理和负载均衡

为什么值得关注

语音交互是 AI Agent 最重要的交互方式之一。但目前市场上几乎全是闭源方案。Dograh 填补了这个空白。

想象一下这些场景:

  • 自建一个语音客服系统,数据完全掌握在自己手里
  • 给智能家居加一个语音交互层,不需要依赖任何云平台
  • 做一个语音翻译 Agent,可以离线运行

这些在过去需要大量工程投入才能实现的事情,现在有了一个开源的基础平台。

现状和局限

Dograh 还在早期阶段。2,100 star 不算少,但离大规模生产可用还有距离。文档、社区、生态都还在建设中。

但方向是对的。语音 Agent 的开源化是必然趋势,Dograh 是第一批认真做这件事的项目之一。