Сфера голосового взаимодействия долгое время находилась в монополии крупных технологических компаний.
У OpenAI есть Realtime API, у Google — Gemini Live, у Microsoft — Azure Speech, но всё это закрытые коммерческие сервисы. Хотите создать собственного голосового агента? Это не так просто.
Пока не появился Dograh.
Что такое Dograh
Dograh — это открытая платформа голосовых агентов. Более 2100 звёзд, 431 форк, а вчера была выпущена версия 1.30.1.
Его позиционирование предельно ясно: дать возможность каждому создать собственного голосового ИИ-агента без зависимости от коммерческих облачных сервисов.
Ключевые возможности
Dograh — это не просто инструмент преобразования речи в текст. Это полноценная платформа голосовых агентов, которая включает:
- Поддержка нескольких моделей: уже встроена поддержка модели OpenAI Realtime, возможно подключение различных бэкендов для голосового ИИ
- Улучшение STT (распознавания речи): поддержка пользовательских словарей для повышения точности распознавания, особенно в сценариях с профессиональной терминологией
- Движок рабочих процессов: позволяет создавать рабочие процессы через SDK, связывая несколько этапов обработки речи
- Полноценный API: предоставляет RESTful API и SDK для удобной интеграции в ваши приложения
- Гибкость развертывания: поддерживает локальное развертывание, а также предлагает различные шаблоны для деплоя
Технические детали
Судя по структуре проекта, Dograh представляет собой достаточно зрелое инженерное решение:
- История разработки насчитывает 468 коммитов
- Поддержка конфигурации coturn (сервер TURN/STUN) для решения проблем обхода NAT
- Включает полноценный фреймворк для оценки (evals), предназначенный для тестирования качества голосовых агентов
- Предоставляет примеры кода и документацию
- Использует nginx в качестве обратного прокси-сервера и балансировщика нагрузки
Почему это заслуживает внимания
Голосовое взаимодействие — один из важнейших способов коммуникации с ИИ-агентами. Однако на текущем рынке практически все решения являются закрытыми. Dograh заполняет этот пробел.
Представьте следующие сценарии:
- Создание собственной системы голосового обслуживания клиентов с полным контролем над данными
- Добавление голосового интерфейса в систему «умного дома» без зависимости от облачных платформ
- Разработка голосового агента-переводчика, способного работать в офлайн-режиме
Задачи, которые раньше требовали значительных инженерных ресурсов, теперь решаются с помощью открытой базовой платформы.
Текущее состояние и ограничения
Dograh всё ещё находится на ранней стадии. Более 2100 звёзд — это немало, но до готовности к масштабному промышленному использованию ещё далеко. Документация, сообщество и экосистема находятся в процессе активного развития.
Однако вектор выбран верно. Открытость голосовых агентов — неизбежный тренд, и Dograh является одним из первых проектов, который серьёзно взялся за эту задачу.