C
ChaoBro

Open-LLM-VTuber:用本地 LLM 搭建你的 AI 虚拟主播

Open-LLM-VTuber:用本地 LLM 搭建你的 AI 虚拟主播

想和 AI 聊天的方式太多了,但能看着一个 Live2D 虚拟形象用声音跟你对话的,目前开源界也就这一个像样的项目。

Open-LLM-VTuber 今天冲上了 GitHub Trending Python 榜单。7,546 个 star,978 个 fork,912 次提交。

它是什么

一句话:用任何 LLM 做后端,Live2D 做脸,麦克风做耳朵,扬声器做嘴巴——搭建一个能跑在本地的 AI 虚拟主播。

核心特性:

  • 免提语音交互:对着说话就行,不用按任何键
  • 语音打断:聊到一半想插话,直接开口,不用等它说完
  • 跨平台本地运行:Windows、macOS、Linux 都能跑
  • 兼容任何 OpenAI 兼容 API:Ollama、LM Studio、云端模型都行

技术架构

整体链路是经典的语音对话 pipeline:

麦克风 → 语音识别(Whisper) → LLM → 语音合成(TTS) → 扬声器
                              ↓
                         Live2D 表情驱动

语音识别用的是 Whisper(sherpa-onnx 支持多种 ASR 引擎),LLM 后端兼容所有 OpenAI 格式的 API,TTS 可以对接多种语音合成服务。

Live2D 负责把文字回复转成表情和口型动画——这一步是整个项目的灵魂。没有它,就是一个普通的语音助手;有了它,你的 AI 有了"脸"。

项目活跃度

912 次提交,19 个 tag,88 个 open issues,32 个 PR。不算顶级活跃度,但维护节奏稳定。

有意思的是仓库里有 .cursor/rules.gemini 目录——说明项目开发者自己也在用 AI 辅助开发。

适用场景

  • 个人娱乐:在家里搭一个 AI 伙伴,对着屏幕聊天
  • 直播互动:7x24 小时的 AI 虚拟主播,自动回复弹幕
  • 内容创作:生成 AI 驱动的虚拟角色短视频
  • 语言学习:和一个永远有耐心的虚拟角色练口语

现实情况

本地跑全套需要一定的硬件——语音识别、LLM 推理、TTS、Live2D 渲染,四件套同时跑对 CPU/GPU 都有要求。用云端 LLM API 可以减轻本地负担,但延迟和隐私就是另一回事了。

这个项目叫 "Open-LLM-VTuber",但说实话,它离 Neuro-sama 那种级别的 AI 主播还差得远。不过 Neuro-sama 是闭源的,而且花了大量定制训练。Open-LLM-VTuber 给的是基础设施——你可以在此基础上做任何你想做的。

主要来源: