Etiqueta: TTS

  • KittenTTS, Texto a Voz en cualquier lugar 🇺🇲

    KittenTTS, Texto a Voz en cualquier lugar 🇺🇲

    KittenTTS es un modelo ligero de texto a voz ,que puede funcionar prácticamente en cualquier lugar, incluso desde un navegador web, pero únicamente genera audio en inglés.


    Tabla de contenidos


    🖥️ Requisitos:

    🐍 Python 3.12

    Descargar versión portable mínima Winpython: https://github.com/winpython/winpython/releases/download/8.0.20240501/Winpython64-3.12.3.1dotb2.exe

    📦 Cliente HuggingFace y UV

    python -m pip install hf[download] uv
    

    🐇 Aceleración de GPU (Opcional)

    Comando para averiguar la versión de CUDA en nuestra máquina

    nvcc -V
    

    En mi caso, tengo la versión 12.8, así que la ruta del índice de descargas de paquetes debería de terminar en 128

    python -m pip install --force-reinstall --no-deps --index-url https://download.pytorch.org/whl/cu128 torch
    

    Instalamos la variante GPU de onnxruntime:

    python -m pip install onnxruntime-gpu
    

    💾 Instalación

    python -m uv pip install https://github.com/KittenML/KittenTTS/releases/download/0.8/kittentts-0.8.0-py3-none-any.whl
    

    📝 Código de Ejemplo

    Nota: KittenTTS descarga el modelo especificado, usando el cliente de HuggingFace.

    from kittentts import KittenTTS
    m = KittenTTS("KittenML/kitten-tts-mini-0.8")
    
    audio = m.generate("This high quality TTS model works even without a GPU.", voice='Jasper' )
    
    # available_voices : ['Bella', 'Jasper', 'Luna', 'Bruno', 'Rosie', 'Hugo', 'Kiki', 'Leo']
    
    # Save the audio
    import soundfile as sf
    sf.write('output.wav', audio, 24000)

    🔖 Más información

  • Clonar voces con Qwen3-TTS – ComfyUI

    Clonar voces con Qwen3-TTS – ComfyUI

    Siempre he tenido ganas de leer distintos libros clásicos, pero nunca he tenido la voluntad de ir a una librería a comprar algo para leer en el camino al trabajo, así que me llegó la idea de ¿porqué no generar un audio libro’, el problema es que los servicios en línea, tienen una limitada cantidad de texto para convertir, y eso de copiar y pegar constantemente, como que no se siente muy motivador; así que no hay mejor solución que pasar un par de horas configurando ComfyUI y descargando modelos, a pasar unos 15 minutos copiando y pegando texto de un libro en https://elevenlabs.io/.



    Instalación

    Entorno

    Buscamos el ejecutable de Python, ubicado en la carpeta python_embeded donde se encuentra nuestra instalación de ComfyUI y abrimos la consola en ésa ubicación.

    📂 ComfyUI/
    └── 📂 python_embeded/
        └── python.exe

    Se ejecuta el siguiente comando para instalar la rama de xet de huggingface_hub, para descargar modelos pesados y qwen_tts:

    python -m pip install huggingface_hub[xet] qwen_tts
    

    Nodo

    ComfyUI-Qwen3-TTS https://github.com/ai-joe-git/ComfyUI-Qwen3-TTS


    Flujo de Trabajo

    Audio Referencia

    Generado en https://elevenlabs.io/ con mis créditos.

    Audio Generado

    Usando la vieja confiable RTX 3060 de 12GB.


    Más información

  • Modelos TTS para Speaches AI

    Aquí dejo los modelos disponibles para Speaches en español, éstos se pueden descargar usando la llamada GET /v1/models/Modelo.

    speaches-ai/Kokoro-82M-v1.0-ONNX-fp16

    ef_dora

    em_alex

    em_santa

    speaches-ai/Kokoro-82M-v1.0-ONNX-int8

    ef_dora

    em_alex

    em_santa

    speaches-ai/Kokoro-82M-v1.0-ONNX

    ef_dora

    em_alex

    em_santa

    speaches-ai/piper-es_ES-carlfm-x_low

    carlfm

    speaches-ai/piper-es_ES-davefx-medium

    davefx

    speaches-ai/piper-es_ES-mls_10246-low

    mls_10246

    speaches-ai/piper-es_ES-mls_9972-low

    mls_9972

    speaches-ai/piper-es_ES-sharvard-medium

    sharvard

    speaches-ai/piper-es_MX-claude-high

    claude