Clonar voces con Qwen3-TTS – ComfyUI

Siempre he tenido ganas de leer distintos libros clásicos, pero nunca he tenido la voluntad de ir a una librería a comprar algo para leer en el camino al trabajo, así que me llegó la idea de ¿porqué no generar un audio libro’, el problema es que los servicios en línea, tienen una limitada cantidad de texto para convertir, y eso de copiar y pegar constantemente, como que no se siente muy motivador; así que no hay mejor solución que pasar un par de horas configurando ComfyUI y descargando modelos, a pasar unos 15 minutos copiando y pegando texto de un libro en https://elevenlabs.io/.



Instalación

Entorno

Buscamos el ejecutable de Python, ubicado en la carpeta python_embeded donde se encuentra nuestra instalación de ComfyUI y abrimos la consola en ésa ubicación.

📂 ComfyUI/
└── 📂 python_embeded/
    └── python.exe

Se ejecuta el siguiente comando para instalar la rama de xet de huggingface_hub, para descargar modelos pesados y qwen_tts:

python -m pip install huggingface_hub[xet] qwen_tts

Nodo

ComfyUI-Qwen3-TTS https://github.com/ai-joe-git/ComfyUI-Qwen3-TTS


Flujo de Trabajo

Audio Referencia

Generado en https://elevenlabs.io/ con mis créditos.

Audio Generado

Usando la vieja confiable RTX 3060 de 12GB.


Más información

Comentarios

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *