Qwen-Image-Layered Lanzado - Modelo de Generación de Imágenes con Soporte de Edición por Capas
19/12/2025
Guía de uso del workflow de Qwen-Image-Layered en ComfyUI
Qwen-Image-Layered es un modelo de generación de edición de imágenes por capas desarrollado por el equipo Qwen de Alibaba, basado en el modelo Qwen-Image y publicado bajo la licencia de código abierto Apache 2.0. Este modelo puede descomponer imágenes en múltiples capas RGBA, con cada capa editable de forma independiente sin afectar otro contenido en la imagen. Este enfoque de aislamiento físico hace que la edición de imágenes sea más precisa y consistente.
A diferencia de los métodos tradicionales de edición de imágenes, Qwen-Image-Layered logra una experiencia de edición por capas real al descomponer imágenes en múltiples capas RGBA independientes. Cada capa contiene información completa de color y transparencia, haciendo que la composición de capas sea más natural. Este diseño permite a los usuarios controlar con precisión diferentes partes de una imagen sin preocuparse de que las operaciones de edición afecten otras áreas.
Características principales:
- Capacidad de descomposición de capas: Puede descomponer imágenes en múltiples capas RGBA independientes, con cada capa conteniendo componentes semánticos o estructurales específicos como objetos en primer plano, elementos de fondo, texto, etc.
- Edición independiente de capas: Admite operaciones como recoloración, reemplazo de contenido, modificación de texto, eliminación de objetos, redimensionamiento y reposicionamiento para cada capa, con todas las operaciones afectando solo la capa objetivo
- Cantidad flexible de capas: Sin límite fijo en el número de capas; las imágenes pueden descomponerse en diferentes números de capas (por ejemplo, 3, 4, 8 o más) según sea necesario
- Descomposición recursiva: Admite descomposición recursiva, donde cualquier capa puede descomponerse aún más en más subcapas, proporcionando mayor flexibilidad para necesidades de edición complejas
Nota de rendimiento: Este modelo tiene una velocidad de generación relativamente lenta y un tiempo de ejecución largo. En RTX Pro 6000 96GB VRAM, el uso máximo de memoria puede alcanzar 45GB, con generación de 1024px tomando 120s. Según comentarios de algunos usuarios de RTX 4090, este workflow casi utiliza completamente toda la VRAM disponible. Se recomienda a los usuarios con VRAM limitada usar la versión FP8 para reducir el uso de memoria.
Guía del workflow nativo de Qwen-Image-Layered en ComfyUI
Qwen-Image-Layered tiene soporte nativo en ComfyUI, permitiendo a los usuarios usar directamente este modelo para edición de imágenes por capas. No es necesario instalar nodos personalizados adicionales; simplemente actualiza a la última versión de ComfyUI.
1. Archivo de workflow
Después de actualizar ComfyUI, puedes encontrar el archivo de workflow desde las plantillas, o arrastrar el workflow a continuación a ComfyUI para cargarlo
2. Descarga de modelos
Todos los modelos se pueden encontrar en Huggingface o ModelScope
text_encoders
diffusion_models
vae
Ubicación de almacenamiento de modelos
📂 ComfyUI/
├── 📂 models/
│ ├── 📂 text_encoders/
│ │ └── qwen_2.5_vl_7b_fp8_scaled.safetensors
│ ├── 📂 diffusion_models/
│ │ └── qwen_image_layered_bf16.safetensors
│ └── 📂 vae/
│ └── qwen_image_layered_vae.safetensors3. Versión FP8
Por defecto, usamos la versión bf16, que requiere más VRAM. Si tienes VRAM limitada, puedes usar la versión fp8 para reducir el uso de memoria:
Al usar la versión fp8, necesitas actualizar la ruta del modelo en el nodo Load Diffusion model dentro del Subgraph en el workflow para apuntar al archivo del modelo de versión fp8.
La versión fp8 puede reducir significativamente el uso de VRAM mientras mantiene una buena calidad de generación, haciéndola adecuada para usuarios con VRAM limitada.
4. Configuración del workflow
Configuración del muestreador
Este modelo tiene una velocidad de generación relativamente lenta y un tiempo de ejecución largo. La configuración de muestreo original recomienda 50 pasos con un valor CFG de 4.0, lo que al menos duplicará el tiempo de generación. Si necesitas una generación más rápida, puedes reducir el número de pasos, pero esto puede afectar la calidad de generación. Se recomienda mantener la configuración predeterminada en el primer uso para lograr los mejores resultados de generación.
Tamaño de entrada
Para el tamaño de entrada, 640 píxeles es el valor recomendado, que proporciona un buen equilibrio entre calidad y velocidad de generación. Para salida de alta resolución, puedes usar 1024 píxeles, pero ten en cuenta que tamaños más grandes aumentarán significativamente el tiempo de generación y también consumirán más VRAM. Se recomienda elegir el tamaño apropiado según tu configuración de hardware y necesidades reales.
Prompt (Opcional)
El prompt de texto está destinado a describir el contenido general de la imagen de entrada, incluyendo elementos que pueden estar parcialmente ocluidos (por ejemplo, puedes especificar texto oculto detrás de un objeto en primer plano). El prompt no está diseñado para controlar explícitamente el contenido semántico de capas individuales, sino para ayudar al modelo a entender la estructura general de la imagen.
Workflow de la versión GGUF de Qwen-Image-Layered
El workflow de la versión GGUF está pendiente de actualización, por favor mantente atento.
Enlaces relacionados
- Página del modelo en Hugging Face
- Página del modelo en ModelScope
- Artículo de investigación
- Blog del proyecto
- Demostración en línea
- Workflow de ComfyUI