Open-LLM-VTuber: un asistente de voz con avatar Live2D que funciona en local

Fuentes: Open-LLM-VTuber: a cross-platform offline voice AI companion with Live2D avatar
Imagen generada por IA con el prompt: An anime-style Live2D avatar character on a clean developer monitor, with soft pastel tones and expressive eyes. A translucent digital companion appears over a blurred code editor background with soft natural lighting.
Imagen generada con IA

Open-LLM-VTuber es un compañero de inteligencia artificial con interacción por voz y un avatar Live2D animado, diseñado para funcionar de forma totalmente local en Windows, macOS y Linux. El proyecto nació con el objetivo de replicar mediante soluciones de código abierto la experiencia de la VTuber neuro-sama, que depende de software propietario, y de hacerla accesible en plataformas distintas de Windows.

La aplicación permite mantener conversaciones por voz en tiempo real, interrumpir al asistente sin auriculares, incorporar percepción visual mediante cámara o captura de pantalla, recibir retroalimentación táctil sobre el avatar y proyectar expresiones faciales controladas desde el backend. Se distribuye en dos modalidades: una versión web y un cliente de escritorio que incorpora un modo mascota con fondo transparente, ventana siempre encima y clic traspasable, lo que permite colocar al acompañante en cualquier zona de la pantalla.

En el plano técnico, integra un abanico amplio de modelos de lenguaje (Ollama, OpenAI y sus API compatibles, Gemini, Claude, Mistral, DeepSeek, Zhipu AI, GGUF, LM Studio y vLLM), motores de reconocimiento de voz (sherpa-onnx, FunASR, Faster-Whisper, Whisper.cpp, Whisper, Groq Whisper y Azure ASR) y sistemas de síntesis de voz (sherpa-onnx, pyttsx3, MeloTTS, Coqui-TTS, GPTSoVITS, Bark, CosyVoice, Edge TTS, Fish Audio y Azure TTS). Los módulos se activan mediante archivos de configuración y existe una interfaz Agent que permite integrar arquitecturas como HumeAI EVI, OpenAI Her o Mem0.

La privacidad es uno de sus ejes: al ejecutarse en local, las conversaciones no salen del dispositivo. El proyecto también permite clonar voces, importar modelos Live2D personalizados y traducir la salida de TTS a otro idioma distinto al del chat.

El repositorio se encuentra en desarrollo activo. La versión 2.0, anunciada como una reescritura completa del código, está en fase de discusión y planificación, mientras en la rama 1.x se corrigen errores. La versión 1.0.0 introdujo cambios incompatibles con archivos de configuración previos, por lo que se recomienda una reinstalación con la guía actualizada. Para acceder al servidor desde otro dispositivo, como un móvil, es necesario configurar HTTPS mediante proxy inverso, ya que el micrófono del navegador solo se activa en contextos seguros.