EasyControl: Un Nuevo Marco para el Control Eficiente y Flexible del Transformador de Difusión
El marco EasyControl, desarrollado conjuntamente por Tiamat AI, la Universidad ShanghaiTech, la Universidad Nacional de Singapur y Liblib AI, ha sido oficialmente lanzado. Este marco añade capacidades de control eficientes y flexibles a los modelos de Transformador de Difusión (DiT), y los usuarios de ComfyUI ahora pueden utilizar esta tecnología a través de un plugin dedicado.
Introducción al Marco EasyControl
EasyControl es un marco unificado de control condicional eficiente y flexible diseñado para Transformadores de Difusión (DiT). A medida que las arquitecturas de modelos generativos pasan de modelos basados en UNet a modelos DiT, añadir un control condicional efectivo a DiT se ha convertido en un desafío. EasyControl resuelve este problema a través de tres innovaciones clave:
-
Módulo LoRA de Inyección de Condición Ligero - Procesa señales de condición de forma independiente sin modificar los pesos del modelo base, asegurando la compatibilidad con modelos personalizados y permitiendo la inyección flexible de diversas condiciones.
-
Paradigma de Entrenamiento Consciente de la Posición - Normaliza las condiciones de entrada a resoluciones fijas, permitiendo la generación de imágenes con proporciones de aspecto arbitrarias y resoluciones flexibles, al tiempo que optimiza la eficiencia computacional.
-
Mecanismo de Atención Causal con Tecnología de Caché KV - Reduce significativamente la latencia de síntesis de imágenes y mejora la eficiencia general del marco.
Estas tecnologías permiten a EasyControl soportar la compatibilidad de modelos (habilitando funcionalidad plug-and-play y control sin pérdida de estilo), flexibilidad de generación (soportando múltiples resoluciones, proporciones de aspecto y combinaciones multi-condición) y eficiencia de inferencia.
Uso de EasyControl en ComfyUI
La buena noticia es que los usuarios de ComfyUI ahora pueden usar EasyControl en ComfyUI a través del plugin ComfyUI-easycontrol. Desarrollado por el usuario de GitHub jax-explorer, este plugin trae la funcionalidad de EasyControl a ComfyUI. Flujo de trabajo correspondiente: easy_control_workflow.json.
Tipos de Control Soportados por el Plugin
El plugin ComfyUI-easycontrol soporta varios tipos de control:
- Control de Bordes Canny
- Control de Mapa de Profundidad
- Control HEDSketch
- Control de Pose
- Control de Segmentación Semántica
- Inpainting
- Control de Sujeto
- Control de Estilo Ghibli
Generación de Estilo Ghibli
Notablemente, EasyControl ha lanzado recientemente un modelo especializado de generación de estilo Ghibli. Este modelo fue entrenado utilizando solo 100 rostros asiáticos reales emparejados con contrapartes de estilo Ghibli generadas por GPT-4o, permitiendo la transformación de fotos de retrato en imágenes de estilo de animación Ghibli que preservan las características faciales, similar a obras como “El Viaje de Chihiro” y “Mi Vecino Totoro”.
Actualizaciones Recientes
El equipo de EasyControl ha lanzado varias actualizaciones recientemente:
- 2025-03-18: Puntos de control pre-entrenados lanzados en Hugging Face
- 2025-03-19: Página de demostración de Hugging Face lanzada
- 2025-04-01: Modelo de control de estilo Ghibli lanzado
- 2025-04-03: Soporte de plugin ComfyUI-easycontrol lanzado
- 2025-04-07: Integración con CFG-Zero*, mejorando la fidelidad y controlabilidad de la imagen
Enlaces Relacionados
- Plugin ComfyUI-easycontrol: https://github.com/jax-explorer/ComfyUI-easycontrol
- Proyecto oficial EasyControl: https://github.com/Xiaojiu-z/EasyControl
- Página principal del proyecto EasyControl: https://easycontrolproj.github.io/
- Informe técnico de EasyControl: https://arxiv.org/pdf/2503.07027
- Modelos pre-entrenados: https://huggingface.co/Xiaojiu-Z/EasyControl/
- Demostración de Hugging Face: https://huggingface.co/spaces/jamesliu1217/EasyControl
- Demostración de estilo Ghibli de Hugging Face: https://huggingface.co/spaces/jamesliu1217/EasyControl_Ghibli