Flux 1.0 (Schnell) – ComfyUI

Es un modelo de generación de imágenes que salió a finales de 2024, cuyo lanzamiento de su versión 2.0 se vio opacada con la aparición de Z-Image Turbo. Existen 3 ramas del modelo Flux: Pro, Dev y Schnell, de éstas versiones, la Schnell permite comercializar las imágenes generadas y es la que voy a usar.

Una de las características de Flux es que se puede ejecutar incluso con una tarjeta de 8GB de VRAM, siempre y cuando se cuente con 32GB de RAM donde se pueda reubicar parcialmente el modelo.

Instalación

Variante FP8: https://huggingface.co/Comfy-Org/flux1-schnell/tree/main

NombreTamaño
flux1-schnell-fp8.safetensors17.2GB

Variante GGUF: https://huggingface.co/city96/FLUX.1-schnell-gguf/tree/main

NombreTamaño
flux1-schnell-Q8_0.gguf12.7 GB

(CLIP) Text encoders: https://huggingface.co/comfyanonymous/flux_text_encoders/tree/main

NombreTamaño
clip_l.safetensors246 MB
t5xxl_fp8_e4m3fn_scaled.safetensors5.16 GB

VAE:

NombreTamaño
ae.safetensors335 MB

Dónde se deben de guardar los archivos:

📂 ComfyUI/
└── 📂 models/
    ├── 📂 diffusion_models/
    │    └── flux1-schnell-fp8.safetensors
    |
    ├── 📂 unet/
    │    └── flux1-schnell-Q8_0.gguf
    |
    ├── 📂 clip/
    │    └── clip_l.safetensors
    │    └── t5xxl_fp8_e4m3fn_scaled.safetensors
    |
    └── 📂 vae/
         └── ae.safetensors

Generación

De acuerdo con la documentación de Flux, se recomienda que el prompt lleve la siguiente estructura: Sujeto + Acción + Estilo + Contexto, donde:

  • Sujeto: El foco principal (persona, objeto, personaje).
  • Acción: Lo que el sujeto está haciendo o su pose.
  • Estilo: Enfoque artístico, medio (técnica) o estética.
  • Contexto: Entorno, iluminación, hora, estado de ánimo o condiciones atmosféricas.

Fuente: https://docs.bfl.ai/guides/prompting_summary

A tiger mascot standing on a neutral pose,
professional photography,
studio lighting.

Film texture, low saturation, slightly overexposed.
Cinematic composition.
4K resolution.

Datos de Generación:

  • Seed: 2011
  • Steps: 4
  • Width: 1024 (px)
  • Height: 1024 (px)
  • Sampler: DDIM
  • Scheduler: Normal

Comparación de Modelos

Me tomé la molestia de hacer la generación de prácticamente todas las combinaciones posibles del schedulers y samples posibles.

Las puedes consultar en https://galeria.neuralizando.com/index.php?/category/flux1

Conclusiones

Tiene como un año que no tocaba Flux, y no recordaba el porqué. Tengo algunas imágenes que me gustaron mucho, pero después de revisar mis antiguos flujos de trabajo, me dí cuenta que nunca trabajé con el modelo Schnell base, si no con una afinación de la comunidad junto con un par de loras.

Flux Schnell no es un modelo malo, pero carece de un no se qué, lo que da una sensación de limitación, que es probablemente el objetivo, dado que me imagino lo liberaron como modelo de prueba para la versión Pro.

En mis pruebas noté que la variante GGUF tiene una mejor estética de imagen a costa de prácticamente llevarse el doble de tiempo que la versión FP8 en formato safetensors.

Comentarios

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *