Etiqueta: ComfyUI

  • Z-Image Base – ComfyUI

    Z-Image Base – ComfyUI

    Después de un corto tiempo de espera, sale Z-Image (Base), la versión completa de Z-Image Turbo (ZIT), un modelo que combina la calidad de imagen y velocidad.



    Importante


    La bandera de inicio –fast en el archivo run_(algo).bat de lanzamiento de ComfyUI, provoca que las imágenes generadas terminen completamente en negro.

    https://huggingface.co/city96/Qwen-Image-gguf/discussions/1#6892654731c9796ce6124437


    Instalación

    Descarga de archivos

    Archivos necesarios: https://huggingface.co/Comfy-Org/z_image/tree/main/split_files

    NombreTamaño
    z_image_bf16.safetensors12.3GB
    qwen_3_4b.safetensors8.04GB
    ae.safetensors335MB

    Nota: qwen_3_4b.safetensors y ae.safetensors son los mismos de Z-Image Turbo.

    Variante GGUF para Tarjetas de 8GB VRAM: https://huggingface.co/unsloth/Z-Image-GGUF/tree/main

    NombreTamaño
    z-image-Q8_0.gguf7.22 GB

    Ubicación de archivos

    📂 ComfyUI/
    └── 📂 models/
        ├── 📂 diffusion_models/
        │    └── z_image_bf16.safetensors
        |
        ├── 📂 unet/
        │    └── z-image-Q8_0.gguf
        |
        ├── 📂 text_encoders/
        │    └── qwen_3_4b.safetensors
        |
        └── 📂 vae/
             └── ae.safetensors

    Parámetros

    Samplers (bf16)

    Schedulers (bf16)

    Steps

    bf16 vs q8_0


    Generación de prueba

    • GGUF Name: z-image-Q8_0.gguf
    • Seed: 2011
    • Steps: 24
    • Width: 1024 (px)
    • Height: 1024 (px)
    • Sampler: exp_heun_2_x0_sde
    • Scheduler: Normal
    An full body studio photography of a tiger mascot smiling energetic in a neutral pose in a white background.
    
    Fujifilm Pro 400H style, grainy film texture, low saturation, slightly overexposed, cinematic composition, unique camera angle. Fashion editorial style, 8K resolution.

    Conclusiones

    Una de las principales diferencias con la versión Turbo, es que, a simple vista, se adhiere más al prompt; y ahora tiene la posibilidad de usar un prompt negativo, a costa de un mayor tiempo de generación, cosas que se puede mitigar con el uso de del nodo EasyCache, que nos ayuda a reducir el tiempo de generación a casi la mitad.

    La versión FP8 y Q8, son el tope para una tarjeta de 8GB de VRAM, al igual que Z-Image Turbo, aunque en lo personal, prefiero el estilo de Z-Image Turbo.


    Fuente

  • Clonar voces con Qwen3-TTS – ComfyUI

    Clonar voces con Qwen3-TTS – ComfyUI

    Siempre he tenido ganas de leer distintos libros clásicos, pero nunca he tenido la voluntad de ir a una librería a comprar algo para leer en el camino al trabajo, así que me llegó la idea de ¿porqué no generar un audio libro’, el problema es que los servicios en línea, tienen una limitada cantidad de texto para convertir, y eso de copiar y pegar constantemente, como que no se siente muy motivador; así que no hay mejor solución que pasar un par de horas configurando ComfyUI y descargando modelos, a pasar unos 15 minutos copiando y pegando texto de un libro en https://elevenlabs.io/.



    Instalación

    Entorno

    Buscamos el ejecutable de Python, ubicado en la carpeta python_embeded donde se encuentra nuestra instalación de ComfyUI y abrimos la consola en ésa ubicación.

    📂 ComfyUI/
    └── 📂 python_embeded/
        └── python.exe

    Se ejecuta el siguiente comando para instalar la rama de xet de huggingface_hub, para descargar modelos pesados y qwen_tts:

    python -m pip install huggingface_hub[xet] qwen_tts
    

    Nodo

    ComfyUI-Qwen3-TTS https://github.com/ai-joe-git/ComfyUI-Qwen3-TTS


    Flujo de Trabajo

    Audio Referencia

    Generado en https://elevenlabs.io/ con mis créditos.

    Audio Generado

    Usando la vieja confiable RTX 3060 de 12GB.


    Más información

  • Faceswap con MTB – ComfyUI

    Faceswap con MTB – ComfyUI

    Todo comenzó con una imagen de una figura de acción generada con Z Image Turbo que me gustó bastante, excepto por un pequeño detalle: la cara, que en retrospectiva se ve bien. Normalmente en éstos tipos de flujo de trabajo busco tener consistencia de personajes en diferentes generaciones.

    Y por tal motivo, empiezo mi jornada en la búsqueda de un workflow para reemplazar caras, con distintos grados de éxito, el plug-in de Comfy MTB (https://github.com/melMass/comfy_mtb), ofrece la solución más sencilla (y hasta la fecha, aparentemente la única que funciona sin mayores problemas).

    El plug-in descarga la mayoría de modelos necesarios de análisis facial, excepto el inswapper_128.onnx, que se dedica a hacer el intercambio de cara; Aparentemente, éste modelo desapareció de Github, debido a un escándalo de deepfakes nsfw, cosa que es bastante entendible.

    Siempre que genero un personaje, me viene a la mente: «es muy probable que ésta persona exista en la vida real», lo cual es inquietante, por decir lo menos.

    Instalación

    Los archivos de intercambio de caras se pueden descargar desde https://huggingface.co/datasets/Gourieff/ReActor/tree/main/models

    NombreTamaño
    inswapper_128.onnx554 MB
    reswapper_128.onnx554 MB
    reswapper_256.onnx554 MB

    y se colocan en:

    📂 ComfyUI/
    └── 📂 models/
        └── 📂 insightface/
             ├── inswapper_128.onnx
             ├── reswapper_128.onnx
             └── reswapper_256.onnx

    Nota: inswapper_128_fp16.onnx no funciona.

    Flujo de trabajo

    En lo personal, me gusta más la versión de inswapper_128, dado que ofrece un resultado más fiel para la cara de que quiero se parezca, aunque el resultado sea algo borroso, dado a que pertenece a una época anterior a los modelos de alta resolución.

  • Flux 1.0 (Schnell) – ComfyUI

    Flux 1.0 (Schnell) – ComfyUI

    Es un modelo de generación de imágenes que salió a finales de 2024, cuyo lanzamiento de su versión 2.0 se vio opacada con la aparición de Z-Image Turbo. Existen 3 ramas del modelo Flux: Pro, Dev y Schnell, de éstas versiones, la Schnell permite comercializar las imágenes generadas y es la que voy a usar.

    Una de las características de Flux es que se puede ejecutar incluso con una tarjeta de 8GB de VRAM, siempre y cuando se cuente con 32GB de RAM donde se pueda reubicar parcialmente el modelo.

    Instalación

    Variante FP8: https://huggingface.co/Comfy-Org/flux1-schnell/tree/main

    NombreTamaño
    flux1-schnell-fp8.safetensors17.2GB

    Variante GGUF: https://huggingface.co/city96/FLUX.1-schnell-gguf/tree/main

    NombreTamaño
    flux1-schnell-Q8_0.gguf12.7 GB

    (CLIP) Text encoders: https://huggingface.co/comfyanonymous/flux_text_encoders/tree/main

    NombreTamaño
    clip_l.safetensors246 MB
    t5xxl_fp8_e4m3fn_scaled.safetensors5.16 GB

    VAE:

    NombreTamaño
    ae.safetensors335 MB

    Dónde se deben de guardar los archivos:

    📂 ComfyUI/
    └── 📂 models/
        ├── 📂 diffusion_models/
        │    └── flux1-schnell-fp8.safetensors
        |
        ├── 📂 unet/
        │    └── flux1-schnell-Q8_0.gguf
        |
        ├── 📂 clip/
        │    └── clip_l.safetensors
        │    └── t5xxl_fp8_e4m3fn_scaled.safetensors
        |
        └── 📂 vae/
             └── ae.safetensors
    

    Generación

    De acuerdo con la documentación de Flux, se recomienda que el prompt lleve la siguiente estructura: Sujeto + Acción + Estilo + Contexto, donde:

    • Sujeto: El foco principal (persona, objeto, personaje).
    • Acción: Lo que el sujeto está haciendo o su pose.
    • Estilo: Enfoque artístico, medio (técnica) o estética.
    • Contexto: Entorno, iluminación, hora, estado de ánimo o condiciones atmosféricas.

    Fuente: https://docs.bfl.ai/guides/prompting_summary

    A tiger mascot standing on a neutral pose,
    professional photography,
    studio lighting.
    
    Film texture, low saturation, slightly overexposed.
    Cinematic composition.
    4K resolution.

    Datos de Generación:

    • Seed: 2011
    • Steps: 4
    • Width: 1024 (px)
    • Height: 1024 (px)
    • Sampler: DDIM
    • Scheduler: Normal

    Comparación de Modelos

    Me tomé la molestia de hacer la generación de prácticamente todas las combinaciones posibles del schedulers y samples posibles.

    Las puedes consultar en https://galeria.neuralizando.com/index.php?/category/flux1

    Conclusiones

    Tiene como un año que no tocaba Flux, y no recordaba el porqué. Tengo algunas imágenes que me gustaron mucho, pero después de revisar mis antiguos flujos de trabajo, me dí cuenta que nunca trabajé con el modelo Schnell base, si no con una afinación de la comunidad junto con un par de loras.

    Flux Schnell no es un modelo malo, pero carece de un no se qué, lo que da una sensación de limitación, que es probablemente el objetivo, dado que me imagino lo liberaron como modelo de prueba para la versión Pro.

    En mis pruebas noté que la variante GGUF tiene una mejor estética de imagen a costa de prácticamente llevarse el doble de tiempo que la versión FP8 en formato safetensors.

  • Z-Image Turbo – ComfyUI

    Z-Image Turbo – ComfyUI

    Z-Image Turbo es un modelo de generación de imágenes realistas de alta resolución que puede correr en hardware de consumidor, que en mi caso es la vieja confiable RTX3060 de 12GB, y si, es un modelo sin restricciones.

    Cabe mencionar que éste es un modelo simplificado y que la versión completa será próximamente publicada.

    https://zimageturbo.org

    Instalación

    Archivos: https://huggingface.co/Comfy-Org/z_image_turbo/tree/main/split_files

    Variante fp8: https://huggingface.co/drbaph/Z-Image-Turbo-FP8/tree/main

    Variantes GGUF: https://huggingface.co/jayn7/Z-Image-Turbo-GGUF/tree/main

    NombreFormatoTamaño
    z_image_turbo_bf16safetensors11.44 GB
    z_image_turbo_fp8_e5m2safetensors5.73 GB
    z_image_turbo_fp8_e4m3fnsafetensors5.73 GB
    z_image_turbo-Q8_0gguf6.72GB
    z_image_turbo-Q3_K_Sgguf3.53 GB

    El archivo de ejemplo de ComfyUI muestra donde se deben de guardar los archivos:

    📂 ComfyUI/
    └── 📂 models/
        ├── 📂 diffusion_models/
        │    └── z_image_turbo_bf16.safetensors
        │    └── z_image_turbo_fp8_e5m2.safetensors
        │    └── z_image_turbo_fp8_e4m3fn.safetensors
        |
        ├── 📂 diffusion_models/
        │    └── z_image_turbo-Q8_0.gguf
        │    └── z_image_turbo-Q3_K_S.gguf
        |
        ├── 📂 text_encoders/
        │    └── qwen_3_4b.safetensors
        |
        └── 📂 vae/
             └── ae.safetensors
    

    Generación

    An full body studio photography of a tiger mascot smiling energetic in a neutral pose in a white background.
    
    Fujifilm Pro 400H style, grainy film texture, low saturation, slightly overexposed, cinematic composition, unique camera angle. Fashion editorial style, 8K resolution.

    Datos de Generación

    • Seed: 2021
    • Steps: 8
    • Width: 1024 (px)
    • Height: 1024 (px)
    • Sampler: DDIM
    • Scheduler: DDIM Uniform

    Comparación de Modelos

    Conclusiones

    En mi opinión, la Q8_0 es la mejor opción a utilizar. Permite generar imágenes de excelente calidad, muy similares a las de la versión bf16, con la gran ventaja de que puede funcionar en tarjetas de grado consumidor de 8GB de VRAM.

    Para más imágenes: https://galeria.neuralizando.com/index.php?/category/1