Способов пообщаться с ИИ хватает, но open-source проект, где Live2D-аватар разговаривает с вами голосом? Это пока практически единственный достойный вариант.
Open-LLM-VTuber попал в GitHub Trending. 7,546 звёзд, 978 форков, 912 коммитов.
Что это
Одной фразой: любая LLM как бэкенд, Live2D как лицо, микрофон как уши, динамики как рот — создайте AI-виртуального стримера, работающий локально.
Ключевые возможности:
- Голосовое общение без рук: просто говорите, никаких кнопок
- Голосовое прерывание: вклинивайтесь в разговор, не дожидаясь окончания ответа
- Кроссплатформенность: Windows, macOS, Linux
- Любой OpenAI-совместимый API: Ollama, LM Studio, облачные модели
Архитектура
Конвейер — классический голосовой диалог:
Микрофон → ASR (Whisper) → LLM → TTS → Динамики
↓
Драйвер выражений Live2D
ASR использует Whisper, LLM-бэкенд совместим со всеми API формата OpenAI, TTS подключается к различным сервисам синтеза.
Live2D преобразует текстовые ответы в мимику и анимацию губ — это душа проекта. Без него это просто голосовой ассистент. С ним у вашего ИИ появляется «лицо».
Сценарии использования
- Развлечение: AI-компаньон дома
- Стриминг: круглосуточный AI-виртуальный стример с автоответами
- Создание контента: короткие видео с AI-виртуальными персонажами
- Изучение языков: практика разговорной речи с бесконечно терпеливым виртуальным собеседником
Реалистичная оценка
Запуск полного стека локально требует приличного железа — ASR, LLM-инференс, TTS и рендеринг Live2D одновременно нагружают и CPU, и GPU. Использование облачного LLM API снижает локальную нагрузку, но тогда вопросы задержки и приватности выходят на первый план.
Проект называется «Open-LLM-VTuber», но честно говоря, до уровня AI-стримеров типа Neuro-sama ещё далеко. Но Neuro-sama — закрытый проект, требовавший масштабного кастомного обучения. Open-LLM-VTuber даёт инфраструктуру — стройте на ней что хотите.
Основные источники: