Etiqueta: Flux 1.0

  • Flux 1.0 (Schnell) – ComfyUI

    Flux 1.0 (Schnell) – ComfyUI

    Es un modelo de generación de imágenes que salió a finales de 2024, cuyo lanzamiento de su versión 2.0 se vio opacada con la aparición de Z-Image Turbo. Existen 3 ramas del modelo Flux: Pro, Dev y Schnell, de éstas versiones, la Schnell permite comercializar las imágenes generadas y es la que voy a usar.

    Una de las características de Flux es que se puede ejecutar incluso con una tarjeta de 8GB de VRAM, siempre y cuando se cuente con 32GB de RAM donde se pueda reubicar parcialmente el modelo.

    Instalación

    Variante FP8: https://huggingface.co/Comfy-Org/flux1-schnell/tree/main

    NombreTamaño
    flux1-schnell-fp8.safetensors17.2GB

    Variante GGUF: https://huggingface.co/city96/FLUX.1-schnell-gguf/tree/main

    NombreTamaño
    flux1-schnell-Q8_0.gguf12.7 GB

    (CLIP) Text encoders: https://huggingface.co/comfyanonymous/flux_text_encoders/tree/main

    NombreTamaño
    clip_l.safetensors246 MB
    t5xxl_fp8_e4m3fn_scaled.safetensors5.16 GB

    VAE:

    NombreTamaño
    ae.safetensors335 MB

    Dónde se deben de guardar los archivos:

    📂 ComfyUI/
    └── 📂 models/
        ├── 📂 diffusion_models/
        │    └── flux1-schnell-fp8.safetensors
        |
        ├── 📂 unet/
        │    └── flux1-schnell-Q8_0.gguf
        |
        ├── 📂 clip/
        │    └── clip_l.safetensors
        │    └── t5xxl_fp8_e4m3fn_scaled.safetensors
        |
        └── 📂 vae/
             └── ae.safetensors
    

    Generación

    De acuerdo con la documentación de Flux, se recomienda que el prompt lleve la siguiente estructura: Sujeto + Acción + Estilo + Contexto, donde:

    • Sujeto: El foco principal (persona, objeto, personaje).
    • Acción: Lo que el sujeto está haciendo o su pose.
    • Estilo: Enfoque artístico, medio (técnica) o estética.
    • Contexto: Entorno, iluminación, hora, estado de ánimo o condiciones atmosféricas.

    Fuente: https://docs.bfl.ai/guides/prompting_summary

    A tiger mascot standing on a neutral pose,
    professional photography,
    studio lighting.
    
    Film texture, low saturation, slightly overexposed.
    Cinematic composition.
    4K resolution.

    Datos de Generación:

    • Seed: 2011
    • Steps: 4
    • Width: 1024 (px)
    • Height: 1024 (px)
    • Sampler: DDIM
    • Scheduler: Normal

    Comparación de Modelos

    Me tomé la molestia de hacer la generación de prácticamente todas las combinaciones posibles del schedulers y samples posibles.

    Las puedes consultar en https://galeria.neuralizando.com/index.php?/category/flux1

    Conclusiones

    Tiene como un año que no tocaba Flux, y no recordaba el porqué. Tengo algunas imágenes que me gustaron mucho, pero después de revisar mis antiguos flujos de trabajo, me dí cuenta que nunca trabajé con el modelo Schnell base, si no con una afinación de la comunidad junto con un par de loras.

    Flux Schnell no es un modelo malo, pero carece de un no se qué, lo que da una sensación de limitación, que es probablemente el objetivo, dado que me imagino lo liberaron como modelo de prueba para la versión Pro.

    En mis pruebas noté que la variante GGUF tiene una mejor estética de imagen a costa de prácticamente llevarse el doble de tiempo que la versión FP8 en formato safetensors.