AIとチャットする方法は山ほどあるが、Live2Dアバターが実際に声で話しかけてくるオープンソースプロジェクトといえば、まともなものは今のところこれくらいだ。
Open-LLM-VTuberが今日GitHub Trendingに登場。7,546スター、978フォーク、912コミット。
何なのか
一言で言えば:任意のLLMをバックエンドに、Live2Dを顔に、マイクを耳に、スピーカーを口にして——ローカルで動くAI仮想配信者を構築する。
コア機能:
- ハンズフリー音声対話:ボタンを押す必要はなく、話すだけ
- 音声割り込み:相手の返答中に直接口を挟める
- クロスプラットフォーム:Windows、macOS、Linuxすべて対応
- 任意のOpenAI互換API:Ollama、LM Studio、クラウドモデルすべて利用可能
アーキテクチャ
パイプラインはクラシックな音声対話フロー:
マイク → ASR(Whisper)→ LLM → TTS → スピーカー
↓
Live2D表情ドライバー
ASRはWhisperを使用(sherpa-onnxは複数のエンジンに対応)、LLMバックエンドはすべてのOpenAI形式APIと互換性あり、TTSは各種合成サービスに接続可能。
Live2Dがテキスト返信を表情とリップシンクアニメーションに変換する——これがプロジェクトの灵魂だ。これがなければ単なる音声アシスタント。これがあれば、AIに「顔」が生まれる。
利用シーン
- 個人エンタメ:自宅でAIコンパニオンと会話
- ライブ配信:24時間AI仮想配信者、チャットに自動返信
- コンテンツ制作:AI駆動の仮想キャラクター短视频
- 語学学習:無限に忍耐強い仮想キャラクターと会話練習
現実的なチェック
ローカルでフルスタックを動かすには相応のハードウェアが必要——ASR、LLM推論、TTS、Live2Dレンダリングを同時に動かすとCPUとGPUの両方に負荷がかかる。クラウドLLM APIを使えばローカルの負担は減るが、レイテンシとプライバシーは別の話になる。
「Open-LLM-VTuber」という名前だが、正直なところNeuro-samaレベルのAI配信者にはほど遠い。ただしNeuro-samaはクローズドソースで、 extensive なカスタムトレーニングが必要だった。Open-LLM-VTuberが提供するのはインフラ——その上に何を作るかはあなた次第だ。
主な情報源: