Neuralizando

Cosas de IA

Flux 1.0 (Schnell) – ComfyUI

Es un modelo de generación de imágenes que salió a finales de 2024, cuyo lanzamiento de su versión 2.0 se vio opacada con la aparición de Z-Image Turbo. Existen 3 ramas del modelo Flux: Pro, Dev y Schnell, de éstas versiones, la Schnell permite comercializar las imágenes generadas y es la que voy a usar.

Una de las características de Flux es que se puede ejecutar incluso con una tarjeta de 8GB de VRAM, siempre y cuando se cuente con 32GB de RAM donde se pueda reubicar parcialmente el modelo.

Instalación

Variante FP8: https://huggingface.co/Comfy-Org/flux1-schnell/tree/main

Nombre	Tamaño
flux1-schnell-fp8.safetensors	17.2GB

Variante GGUF: https://huggingface.co/city96/FLUX.1-schnell-gguf/tree/main

Nombre	Tamaño
flux1-schnell-Q8_0.gguf	12.7 GB

(CLIP) Text encoders: https://huggingface.co/comfyanonymous/flux_text_encoders/tree/main

Nombre	Tamaño
clip_l.safetensors	246 MB
t5xxl_fp8_e4m3fn_scaled.safetensors	5.16 GB

VAE:

Del repositorio de Lumina Image 2.0: https://huggingface.co/Comfy-Org/Lumina_Image_2.0_Repackaged/tree/main/split_files/vae
Del Repositorio de Z-Image Turbo: https://huggingface.co/Comfy-Org/z_image_turbo/tree/main/split_files/vae

Nombre	Tamaño
ae.safetensors	335 MB

Dónde se deben de guardar los archivos:

📂 ComfyUI/
└── 📂 models/
    ├── 📂 diffusion_models/
    │    └── flux1-schnell-fp8.safetensors
    |
    ├── 📂 unet/
    │    └── flux1-schnell-Q8_0.gguf
    |
    ├── 📂 clip/
    │    └── clip_l.safetensors
    │    └── t5xxl_fp8_e4m3fn_scaled.safetensors
    |
    └── 📂 vae/
         └── ae.safetensors

Generación

De acuerdo con la documentación de Flux, se recomienda que el prompt lleve la siguiente estructura: Sujeto + Acción + Estilo + Contexto, donde:

Sujeto: El foco principal (persona, objeto, personaje).
Acción: Lo que el sujeto está haciendo o su pose.
Estilo: Enfoque artístico, medio (técnica) o estética.
Contexto: Entorno, iluminación, hora, estado de ánimo o condiciones atmosféricas.

Fuente: https://docs.bfl.ai/guides/prompting_summary

A tiger mascot standing on a neutral pose,
professional photography,
studio lighting.

Film texture, low saturation, slightly overexposed.
Cinematic composition.
4K resolution.

Datos de Generación:

Seed: 2011
Steps: 4
Width: 1024 (px)
Height: 1024 (px)
Sampler: DDIM
Scheduler: Normal

Comparación de Modelos

Me tomé la molestia de hacer la generación de prácticamente todas las combinaciones posibles del schedulers y samples posibles.

Las puedes consultar en https://galeria.neuralizando.com/index.php?/category/flux1

Conclusiones

Tiene como un año que no tocaba Flux, y no recordaba el porqué. Tengo algunas imágenes que me gustaron mucho, pero después de revisar mis antiguos flujos de trabajo, me dí cuenta que nunca trabajé con el modelo Schnell base, si no con una afinación de la comunidad junto con un par de loras.

Flux Schnell no es un modelo malo, pero carece de un no se qué, lo que da una sensación de limitación, que es probablemente el objetivo, dado que me imagino lo liberaron como modelo de prueba para la versión Pro.

En mis pruebas noté que la variante GGUF tiene una mejor estética de imagen a costa de prácticamente llevarse el doble de tiempo que la versión FP8 en formato safetensors.

Escrito por

GabrielMtzCarrillo

Blog, IA, T2I

ComfyUI Flux 1.0 Flux 1.0 S IA TTI

Flux 1.0 (Schnell) – ComfyUI

Instalación

Generación

Comparación de Modelos

Conclusiones

Comentarios

Deja una respuesta Cancelar la respuesta

Más entradas

Hice un motor de videojuegos funcional con VibeCoding y no sé qué pensar

KittenTTS, Texto a Voz en cualquier lugar 🇺🇲

Z-Image Base – ComfyUI

Clonar voces con Qwen3-TTS – ComfyUI