Etiqueta: TTS

KittenTTS, Texto a Voz en cualquier lugar 🇺🇲
KittenTTS es un modelo ligero de texto a voz ,que puede funcionar prácticamente en cualquier lugar, incluso desde un navegador web, pero únicamente genera audio en inglés.

Tabla de contenidos
🖥️ Requisitos:

🐍 Python 3.12

Descargar versión portable mínima Winpython: https://github.com/winpython/winpython/releases/download/8.0.20240501/Winpython64-3.12.3.1dotb2.exe

📦 Cliente HuggingFace y UV
```
python -m pip install hf[download] uv
```
🐇 Aceleración de GPU (Opcional)

Comando para averiguar la versión de CUDA en nuestra máquina
```
nvcc -V
```
En mi caso, tengo la versión 12.8, así que la ruta del índice de descargas de paquetes debería de terminar en 128
```
python -m pip install --force-reinstall --no-deps --index-url https://download.pytorch.org/whl/cu128 torch
```
Instalamos la variante GPU de onnxruntime:
```
python -m pip install onnxruntime-gpu
```
💾 Instalación
Importante
En mi caso, UV da un mensaje de error en donde dice que el nombre de la biblioteca no coincide, y adicionalmente, que en windows la copia local no es un enlace simbólico, aunque lo que necesitamos es que, los archivos se copien al lugar especificado, así que se pueden establecer las siguientes variables de entorno para lidiar con éstos detalles, en lo personal uso SETLOCAL para evitar problemas con otras instalaciones.

SET UV_SKIP_WHEEL_FILENAME_CHECK=1 SET UV_LINK_MODE=copy
```
python -m uv pip install https://github.com/KittenML/KittenTTS/releases/download/0.8/kittentts-0.8.0-py3-none-any.whl
```
📝 Código de Ejemplo

Nota: KittenTTS descarga el modelo especificado, usando el cliente de HuggingFace.
```
from kittentts import KittenTTS
m = KittenTTS("KittenML/kitten-tts-mini-0.8")

audio = m.generate("This high quality TTS model works even without a GPU.", voice='Jasper' )

# available_voices : ['Bella', 'Jasper', 'Luna', 'Bruno', 'Rosie', 'Hugo', 'Kiki', 'Leo']

# Save the audio
import soundfile as sf
sf.write('output.wav', audio, 24000)
```
🔖 Más información
- Video de AI Search 🇺🇲: https://youtu.be/fnMAIa2PEAk?t=500&si=G73ygkGDGABy_0d_
- Repositorio en GitHub: https://github.com/KittenML/KittenTTS
- Demo desde el navegador: https://clowerweb.github.io/kitten-tts-web-demo/
- Demo en el espacio de HugginFace: https://huggingface.co/spaces/KittenML/KittenTTS-Demo
febrero 24, 2026
Clonar voces con Qwen3-TTS – ComfyUI
Siempre he tenido ganas de leer distintos libros clásicos, pero nunca he tenido la voluntad de ir a una librería a comprar algo para leer en el camino al trabajo, así que me llegó la idea de ¿porqué no generar un audio libro’, el problema es que los servicios en línea, tienen una limitada cantidad de texto para convertir, y eso de copiar y pegar constantemente, como que no se siente muy motivador; así que no hay mejor solución que pasar un par de horas configurando ComfyUI y descargando modelos, a pasar unos 15 minutos copiando y pegando texto de un libro en https://elevenlabs.io/.
Contenido
Instalación

Entorno

Buscamos el ejecutable de Python, ubicado en la carpeta python_embeded donde se encuentra nuestra instalación de ComfyUI y abrimos la consola en ésa ubicación.
```
📂 ComfyUI/
└── 📂 python_embeded/
    └── python.exe
```
Se ejecuta el siguiente comando para instalar la rama de xet de huggingface_hub, para descargar modelos pesados y qwen_tts:
```
python -m pip install huggingface_hub[xet] qwen_tts
```
Nodo

ComfyUI-Qwen3-TTS https://github.com/ai-joe-git/ComfyUI-Qwen3-TTS

Flujo de Trabajo

Audio Referencia

Generado en https://elevenlabs.io/ con mis créditos.

Audio Generado

Usando la vieja confiable RTX 3060 de 12GB.

Más información
- Qwen3-TTS Family is Now Open Sourced: Voice Design, Clone, and Generation! – https://qwen.ai/blog?id=qwen3tts-0115
- Qwen3-TTS – https://github.com/QwenLM/Qwen3-TTS
- Qwen3-TTS: The Complete 2026 Guide to Open-Source Voice Cloning and AI Speech Generation – https://dev.to/czmilo/qwen3-tts-the-complete-2026-guide-to-open-source-voice-cloning-and-ai-speech-generation-1in6
enero 30, 2026
Modelos TTS para Speaches AI

Aquí dejo los modelos disponibles para Speaches en español, éstos se pueden descargar usando la llamada GET /v1/models/Modelo.

speaches-ai/Kokoro-82M-v1.0-ONNX-fp16

ef_dora

em_alex

em_santa

speaches-ai/Kokoro-82M-v1.0-ONNX-int8

ef_dora

em_alex

em_santa

speaches-ai/Kokoro-82M-v1.0-ONNX

ef_dora

em_alex

em_santa

speaches-ai/piper-es_ES-carlfm-x_low

carlfm

speaches-ai/piper-es_ES-davefx-medium

davefx

speaches-ai/piper-es_ES-mls_10246-low

mls_10246

speaches-ai/piper-es_ES-mls_9972-low

mls_9972

speaches-ai/piper-es_ES-sharvard-medium

sharvard

speaches-ai/piper-es_MX-claude-high

claude

junio 19, 2025