Etiqueta: TTI

  • Z-Image Base – ComfyUI

    Z-Image Base – ComfyUI

    Después de un corto tiempo de espera, sale Z-Image (Base), la versión completa de Z-Image Turbo (ZIT), un modelo que combina la calidad de imagen y velocidad.



    Importante


    La bandera de inicio –fast en el archivo run_(algo).bat de lanzamiento de ComfyUI, provoca que las imágenes generadas terminen completamente en negro.

    https://huggingface.co/city96/Qwen-Image-gguf/discussions/1#6892654731c9796ce6124437


    Instalación

    Descarga de archivos

    Archivos necesarios: https://huggingface.co/Comfy-Org/z_image/tree/main/split_files

    NombreTamaño
    z_image_bf16.safetensors12.3GB
    qwen_3_4b.safetensors8.04GB
    ae.safetensors335MB

    Nota: qwen_3_4b.safetensors y ae.safetensors son los mismos de Z-Image Turbo.

    Variante GGUF para Tarjetas de 8GB VRAM: https://huggingface.co/unsloth/Z-Image-GGUF/tree/main

    NombreTamaño
    z-image-Q8_0.gguf7.22 GB

    Ubicación de archivos

    📂 ComfyUI/
    └── 📂 models/
        ├── 📂 diffusion_models/
        │    └── z_image_bf16.safetensors
        |
        ├── 📂 unet/
        │    └── z-image-Q8_0.gguf
        |
        ├── 📂 text_encoders/
        │    └── qwen_3_4b.safetensors
        |
        └── 📂 vae/
             └── ae.safetensors

    Parámetros

    Samplers (bf16)

    Schedulers (bf16)

    Steps

    bf16 vs q8_0


    Generación de prueba

    • GGUF Name: z-image-Q8_0.gguf
    • Seed: 2011
    • Steps: 24
    • Width: 1024 (px)
    • Height: 1024 (px)
    • Sampler: exp_heun_2_x0_sde
    • Scheduler: Normal
    An full body studio photography of a tiger mascot smiling energetic in a neutral pose in a white background.
    
    Fujifilm Pro 400H style, grainy film texture, low saturation, slightly overexposed, cinematic composition, unique camera angle. Fashion editorial style, 8K resolution.

    Conclusiones

    Una de las principales diferencias con la versión Turbo, es que, a simple vista, se adhiere más al prompt; y ahora tiene la posibilidad de usar un prompt negativo, a costa de un mayor tiempo de generación, cosas que se puede mitigar con el uso de del nodo EasyCache, que nos ayuda a reducir el tiempo de generación a casi la mitad.

    La versión FP8 y Q8, son el tope para una tarjeta de 8GB de VRAM, al igual que Z-Image Turbo, aunque en lo personal, prefiero el estilo de Z-Image Turbo.


    Fuente

  • Flux 1.0 (Schnell) – ComfyUI

    Flux 1.0 (Schnell) – ComfyUI

    Es un modelo de generación de imágenes que salió a finales de 2024, cuyo lanzamiento de su versión 2.0 se vio opacada con la aparición de Z-Image Turbo. Existen 3 ramas del modelo Flux: Pro, Dev y Schnell, de éstas versiones, la Schnell permite comercializar las imágenes generadas y es la que voy a usar.

    Una de las características de Flux es que se puede ejecutar incluso con una tarjeta de 8GB de VRAM, siempre y cuando se cuente con 32GB de RAM donde se pueda reubicar parcialmente el modelo.

    Instalación

    Variante FP8: https://huggingface.co/Comfy-Org/flux1-schnell/tree/main

    NombreTamaño
    flux1-schnell-fp8.safetensors17.2GB

    Variante GGUF: https://huggingface.co/city96/FLUX.1-schnell-gguf/tree/main

    NombreTamaño
    flux1-schnell-Q8_0.gguf12.7 GB

    (CLIP) Text encoders: https://huggingface.co/comfyanonymous/flux_text_encoders/tree/main

    NombreTamaño
    clip_l.safetensors246 MB
    t5xxl_fp8_e4m3fn_scaled.safetensors5.16 GB

    VAE:

    NombreTamaño
    ae.safetensors335 MB

    Dónde se deben de guardar los archivos:

    📂 ComfyUI/
    └── 📂 models/
        ├── 📂 diffusion_models/
        │    └── flux1-schnell-fp8.safetensors
        |
        ├── 📂 unet/
        │    └── flux1-schnell-Q8_0.gguf
        |
        ├── 📂 clip/
        │    └── clip_l.safetensors
        │    └── t5xxl_fp8_e4m3fn_scaled.safetensors
        |
        └── 📂 vae/
             └── ae.safetensors
    

    Generación

    De acuerdo con la documentación de Flux, se recomienda que el prompt lleve la siguiente estructura: Sujeto + Acción + Estilo + Contexto, donde:

    • Sujeto: El foco principal (persona, objeto, personaje).
    • Acción: Lo que el sujeto está haciendo o su pose.
    • Estilo: Enfoque artístico, medio (técnica) o estética.
    • Contexto: Entorno, iluminación, hora, estado de ánimo o condiciones atmosféricas.

    Fuente: https://docs.bfl.ai/guides/prompting_summary

    A tiger mascot standing on a neutral pose,
    professional photography,
    studio lighting.
    
    Film texture, low saturation, slightly overexposed.
    Cinematic composition.
    4K resolution.

    Datos de Generación:

    • Seed: 2011
    • Steps: 4
    • Width: 1024 (px)
    • Height: 1024 (px)
    • Sampler: DDIM
    • Scheduler: Normal

    Comparación de Modelos

    Me tomé la molestia de hacer la generación de prácticamente todas las combinaciones posibles del schedulers y samples posibles.

    Las puedes consultar en https://galeria.neuralizando.com/index.php?/category/flux1

    Conclusiones

    Tiene como un año que no tocaba Flux, y no recordaba el porqué. Tengo algunas imágenes que me gustaron mucho, pero después de revisar mis antiguos flujos de trabajo, me dí cuenta que nunca trabajé con el modelo Schnell base, si no con una afinación de la comunidad junto con un par de loras.

    Flux Schnell no es un modelo malo, pero carece de un no se qué, lo que da una sensación de limitación, que es probablemente el objetivo, dado que me imagino lo liberaron como modelo de prueba para la versión Pro.

    En mis pruebas noté que la variante GGUF tiene una mejor estética de imagen a costa de prácticamente llevarse el doble de tiempo que la versión FP8 en formato safetensors.

  • Z-Image Turbo – ComfyUI

    Z-Image Turbo – ComfyUI

    Z-Image Turbo es un modelo de generación de imágenes realistas de alta resolución que puede correr en hardware de consumidor, que en mi caso es la vieja confiable RTX3060 de 12GB, y si, es un modelo sin restricciones.

    Cabe mencionar que éste es un modelo simplificado y que la versión completa será próximamente publicada.

    https://zimageturbo.org

    Instalación

    Archivos: https://huggingface.co/Comfy-Org/z_image_turbo/tree/main/split_files

    Variante fp8: https://huggingface.co/drbaph/Z-Image-Turbo-FP8/tree/main

    Variantes GGUF: https://huggingface.co/jayn7/Z-Image-Turbo-GGUF/tree/main

    NombreFormatoTamaño
    z_image_turbo_bf16safetensors11.44 GB
    z_image_turbo_fp8_e5m2safetensors5.73 GB
    z_image_turbo_fp8_e4m3fnsafetensors5.73 GB
    z_image_turbo-Q8_0gguf6.72GB
    z_image_turbo-Q3_K_Sgguf3.53 GB

    El archivo de ejemplo de ComfyUI muestra donde se deben de guardar los archivos:

    📂 ComfyUI/
    └── 📂 models/
        ├── 📂 diffusion_models/
        │    └── z_image_turbo_bf16.safetensors
        │    └── z_image_turbo_fp8_e5m2.safetensors
        │    └── z_image_turbo_fp8_e4m3fn.safetensors
        |
        ├── 📂 diffusion_models/
        │    └── z_image_turbo-Q8_0.gguf
        │    └── z_image_turbo-Q3_K_S.gguf
        |
        ├── 📂 text_encoders/
        │    └── qwen_3_4b.safetensors
        |
        └── 📂 vae/
             └── ae.safetensors
    

    Generación

    An full body studio photography of a tiger mascot smiling energetic in a neutral pose in a white background.
    
    Fujifilm Pro 400H style, grainy film texture, low saturation, slightly overexposed, cinematic composition, unique camera angle. Fashion editorial style, 8K resolution.

    Datos de Generación

    • Seed: 2021
    • Steps: 8
    • Width: 1024 (px)
    • Height: 1024 (px)
    • Sampler: DDIM
    • Scheduler: DDIM Uniform

    Comparación de Modelos

    Conclusiones

    En mi opinión, la Q8_0 es la mejor opción a utilizar. Permite generar imágenes de excelente calidad, muy similares a las de la versión bf16, con la gran ventaja de que puede funcionar en tarjetas de grado consumidor de 8GB de VRAM.

    Para más imágenes: https://galeria.neuralizando.com/index.php?/category/1