想和 AI 聊天的方式太多了,但能看着一个 Live2D 虚拟形象用声音跟你对话的,目前开源界也就这一个像样的项目。
Open-LLM-VTuber 今天冲上了 GitHub Trending Python 榜单。7,546 个 star,978 个 fork,912 次提交。
它是什么
一句话:用任何 LLM 做后端,Live2D 做脸,麦克风做耳朵,扬声器做嘴巴——搭建一个能跑在本地的 AI 虚拟主播。
核心特性:
- 免提语音交互:对着说话就行,不用按任何键
- 语音打断:聊到一半想插话,直接开口,不用等它说完
- 跨平台本地运行:Windows、macOS、Linux 都能跑
- 兼容任何 OpenAI 兼容 API:Ollama、LM Studio、云端模型都行
技术架构
整体链路是经典的语音对话 pipeline:
麦克风 → 语音识别(Whisper) → LLM → 语音合成(TTS) → 扬声器
↓
Live2D 表情驱动
语音识别用的是 Whisper(sherpa-onnx 支持多种 ASR 引擎),LLM 后端兼容所有 OpenAI 格式的 API,TTS 可以对接多种语音合成服务。
Live2D 负责把文字回复转成表情和口型动画——这一步是整个项目的灵魂。没有它,就是一个普通的语音助手;有了它,你的 AI 有了"脸"。
项目活跃度
912 次提交,19 个 tag,88 个 open issues,32 个 PR。不算顶级活跃度,但维护节奏稳定。
有意思的是仓库里有 .cursor/rules 和 .gemini 目录——说明项目开发者自己也在用 AI 辅助开发。
适用场景
- 个人娱乐:在家里搭一个 AI 伙伴,对着屏幕聊天
- 直播互动:7x24 小时的 AI 虚拟主播,自动回复弹幕
- 内容创作:生成 AI 驱动的虚拟角色短视频
- 语言学习:和一个永远有耐心的虚拟角色练口语
现实情况
本地跑全套需要一定的硬件——语音识别、LLM 推理、TTS、Live2D 渲染,四件套同时跑对 CPU/GPU 都有要求。用云端 LLM API 可以减轻本地负担,但延迟和隐私就是另一回事了。
这个项目叫 "Open-LLM-VTuber",但说实话,它离 Neuro-sama 那种级别的 AI 主播还差得远。不过 Neuro-sama 是闭源的,而且花了大量定制训练。Open-LLM-VTuber 给的是基础设施——你可以在此基础上做任何你想做的。
主要来源: