Neuralizando

Cosas de IA

KittenTTS, Texto a Voz en cualquier lugar 🇺🇲

KittenTTS es un modelo ligero de texto a voz ,que puede funcionar prácticamente en cualquier lugar, incluso desde un navegador web, pero únicamente genera audio en inglés.

Tabla de contenidos

🖥️ Requisitos:
- 🐍 Python 3.12
- 📦 Cliente HuggingFace y UV
🐇 Aceleración de GPU (Opcional)
💾 Instalación
📝 Código de Ejemplo
🔖 Más información

🖥️ Requisitos:

🐍 Python 3.12

Descargar versión portable mínima Winpython: https://github.com/winpython/winpython/releases/download/8.0.20240501/Winpython64-3.12.3.1dotb2.exe

📦 Cliente HuggingFace y UV

python -m pip install hf[download] uv

🐇 Aceleración de GPU (Opcional)

Comando para averiguar la versión de CUDA en nuestra máquina

nvcc -V

En mi caso, tengo la versión 12.8, así que la ruta del índice de descargas de paquetes debería de terminar en 128

python -m pip install --force-reinstall --no-deps --index-url https://download.pytorch.org/whl/cu128 torch

Instalamos la variante GPU de onnxruntime:

python -m pip install onnxruntime-gpu

💾 Instalación

Importante

En mi caso, UV da un mensaje de error en donde dice que el nombre de la biblioteca no coincide, y adicionalmente, que en windows la copia local no es un enlace simbólico, aunque lo que necesitamos es que, los archivos se copien al lugar especificado, así que se pueden establecer las siguientes variables de entorno para lidiar con éstos detalles, en lo personal uso SETLOCAL para evitar problemas con otras instalaciones.

SET UV_SKIP_WHEEL_FILENAME_CHECK=1
SET UV_LINK_MODE=copy

python -m uv pip install https://github.com/KittenML/KittenTTS/releases/download/0.8/kittentts-0.8.0-py3-none-any.whl

📝 Código de Ejemplo

Nota: KittenTTS descarga el modelo especificado, usando el cliente de HuggingFace.

from kittentts import KittenTTS
m = KittenTTS("KittenML/kitten-tts-mini-0.8")

audio = m.generate("This high quality TTS model works even without a GPU.", voice='Jasper' )

# available_voices : ['Bella', 'Jasper', 'Luna', 'Bruno', 'Rosie', 'Hugo', 'Kiki', 'Leo']

# Save the audio
import soundfile as sf
sf.write('output.wav', audio, 24000)

🔖 Más información

Video de AI Search 🇺🇲: https://youtu.be/fnMAIa2PEAk?t=500&si=G73ygkGDGABy_0d_
Repositorio en GitHub: https://github.com/KittenML/KittenTTS
Demo desde el navegador: https://clowerweb.github.io/kitten-tts-web-demo/
Demo en el espacio de HugginFace: https://huggingface.co/spaces/KittenML/KittenTTS-Demo

Escrito por

GabrielMtzCarrillo

Blog

TTS

KittenTTS, Texto a Voz en cualquier lugar 🇺🇲

Tabla de contenidos

🖥️ Requisitos:

🐍 Python 3.12

📦 Cliente HuggingFace y UV

🐇 Aceleración de GPU (Opcional)

💾 Instalación

📝 Código de Ejemplo

🔖 Más información

Comentarios

Deja una respuesta Cancelar la respuesta

Más entradas

Hice un motor de videojuegos funcional con VibeCoding y no sé qué pensar

KittenTTS, Texto a Voz en cualquier lugar 🇺🇲

Z-Image Base – ComfyUI

Clonar voces con Qwen3-TTS – ComfyUI