C
ChaoBro

Open-LLM-VTuber:ローカルLLMでAI仮想配信者を作ろう

Open-LLM-VTuber:ローカルLLMでAI仮想配信者を作ろう

AIとチャットする方法は山ほどあるが、Live2Dアバターが実際に声で話しかけてくるオープンソースプロジェクトといえば、まともなものは今のところこれくらいだ。

Open-LLM-VTuberが今日GitHub Trendingに登場。7,546スター、978フォーク、912コミット。

何なのか

一言で言えば:任意のLLMをバックエンドに、Live2Dを顔に、マイクを耳に、スピーカーを口にして——ローカルで動くAI仮想配信者を構築する。

コア機能:

  • ハンズフリー音声対話:ボタンを押す必要はなく、話すだけ
  • 音声割り込み:相手の返答中に直接口を挟める
  • クロスプラットフォーム:Windows、macOS、Linuxすべて対応
  • 任意のOpenAI互換API:Ollama、LM Studio、クラウドモデルすべて利用可能

アーキテクチャ

パイプラインはクラシックな音声対話フロー:

マイク → ASR(Whisper)→ LLM → TTS → スピーカー
                              ↓
                        Live2D表情ドライバー

ASRはWhisperを使用(sherpa-onnxは複数のエンジンに対応)、LLMバックエンドはすべてのOpenAI形式APIと互換性あり、TTSは各種合成サービスに接続可能。

Live2Dがテキスト返信を表情とリップシンクアニメーションに変換する——これがプロジェクトの灵魂だ。これがなければ単なる音声アシスタント。これがあれば、AIに「顔」が生まれる。

利用シーン

  • 個人エンタメ:自宅でAIコンパニオンと会話
  • ライブ配信:24時間AI仮想配信者、チャットに自動返信
  • コンテンツ制作:AI駆動の仮想キャラクター短视频
  • 語学学習:無限に忍耐強い仮想キャラクターと会話練習

現実的なチェック

ローカルでフルスタックを動かすには相応のハードウェアが必要——ASR、LLM推論、TTS、Live2Dレンダリングを同時に動かすとCPUとGPUの両方に負荷がかかる。クラウドLLM APIを使えばローカルの負担は減るが、レイテンシとプライバシーは別の話になる。

「Open-LLM-VTuber」という名前だが、正直なところNeuro-samaレベルのAI配信者にはほど遠い。ただしNeuro-samaはクローズドソースで、 extensive なカスタムトレーニングが必要だった。Open-LLM-VTuberが提供するのはインフラ——その上に何を作るかはあなた次第だ。

主な情報源: