Microsoft VibeVoice: 44K звёзд — open-source голосовой AI, 60 минут аудио за один проход

Любой, кто обрабатывал записи совещаний или подкасты, сталкивался с этой проблемой: отдаёте час аудио сервису распознавания речи, он режет его на сегменты, контекст на стыках теряется, информация о говорящих пропадает, и вы занимаетесь склейкой вручную.

Open-source модель VibeVoice от Microsoft решает именно эту задачу — 60 минут аудио обрабатываются за один проход через модель, без нарезки. Разделение говорящих встроено — не нужен отдельный модуль для определения, кто что сказал.

Проект набрал 44,746 звёзд на GitHub, только сегодня добавив 1,523 звезды.

Что он умеет

Традиционные модели распознавания речи, такие как OpenAI Whisper, обрабатывают длинное аудио, нарезая его на сегменты и обрабатывая каждый независимо. Это создаёт две проблемы:

Разрыв контекста — семантика на стыках может теряться, снижая точность
Потеря информации о говорящих — один и тот же говорящий на разных сегментах не связывается автоматически

Архитектура VibeVoice позволяет обрабатывать до 60 минут аудио за один проход, сохраняя контекст. Помимо ASR, проект включает модули TTS и файн-тюнинга — полный toolkit для голосового AI.

Основные возможности:

60 минут за один проход: без ручной нарезки, без потери контекста
Разделение говорящих: встроенное, автоматическая маркировка
50+ языков: основные языки и диалекты
Пользовательские горячие слова: оптимизация для предметных областей
Плагин vLLM: высокопроизводительный инференс
Apple Silicon: MPS бэкенд адаптирован

Локальный запуск означает нулевую стоимость транскрипции. Для сравнения: Whisper API ~$0.36/час, Deepgram ~$0.26/час, ElevenLabs ~$0.40/час. При интенсивном использовании срок окупаемости локального развёртывания короткий.

Быстрый старт

Проект включает Gradio Demo для ASR и TTS через веб-интерфейс. Для production поддерживается Docker.

git clone https://github.com/microsoft/VibeVoice.git
cd VibeVoice
python demo/app.py

Пользователи Apple Silicon могут запускать на Mac через MPS — внешняя GPU не требуется.

За чем наблюдать

Проект свежий, несколько моментов для отслеживания:

Точность на китайском — заявлено 50+ языков, но реальная производительность по языкам требует верификации сообществом
Требования к VRAM — обработка 60 минут за один проход требует значительной видеопамяти
Сравнение с Whisper-large-v3 — дифференциация VibeVoice в длинном аудио, но разница на коротком аудио и в шумных сценариях требует тестирования

Активность разработки: 134 коммита, 112 закрытых issue, 32 PR в работе.

Основные источники

Microsoft VibeVoice GitHub

Что он умеет

Быстрый старт

За чем наблюдать

Основные источники

Похожие материалы

LangChain v1.0发布：AI应用开发框架迎来重大里程碑

GitHub热门：10个值得关注的AI开源项目（2024年4月）