KittenTTS, Texto a Voz en cualquier lugar 🇺🇲

KittenTTS es un modelo ligero de texto a voz ,que puede funcionar prácticamente en cualquier lugar, incluso desde un navegador web, pero únicamente genera audio en inglés.


Tabla de contenidos


🖥️ Requisitos:

🐍 Python 3.12

Descargar versión portable mínima Winpython: https://github.com/winpython/winpython/releases/download/8.0.20240501/Winpython64-3.12.3.1dotb2.exe

📦 Cliente HuggingFace y UV

python -m pip install hf[download] uv

🐇 Aceleración de GPU (Opcional)

Comando para averiguar la versión de CUDA en nuestra máquina

nvcc -V

En mi caso, tengo la versión 12.8, así que la ruta del índice de descargas de paquetes debería de terminar en 128

python -m pip install --force-reinstall --no-deps --index-url https://download.pytorch.org/whl/cu128 torch

Instalamos la variante GPU de onnxruntime:

python -m pip install onnxruntime-gpu

💾 Instalación

python -m uv pip install https://github.com/KittenML/KittenTTS/releases/download/0.8/kittentts-0.8.0-py3-none-any.whl

📝 Código de Ejemplo

Nota: KittenTTS descarga el modelo especificado, usando el cliente de HuggingFace.

from kittentts import KittenTTS
m = KittenTTS("KittenML/kitten-tts-mini-0.8")

audio = m.generate("This high quality TTS model works even without a GPU.", voice='Jasper' )

# available_voices : ['Bella', 'Jasper', 'Luna', 'Bruno', 'Rosie', 'Hugo', 'Kiki', 'Leo']

# Save the audio
import soundfile as sf
sf.write('output.wav', audio, 24000)

🔖 Más información

Comentarios

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *