HiDream-I1 es un modelo de texto a imagen que fue liberado oficialmente por HiDream-ai el 7 de abril de 2025, con una escala de parámetros de 17B.
Tipo de Licencia Liberado bajo la Licencia MIT, admite su uso para proyectos personales, investigación científica y fines comerciales. El modelo ha tenido un buen desempeño en múltiples pruebas de referencia.
En este artículo, cubriremos lo siguiente:
- Una breve introducción a HiDream-I1
- Información sobre las diferentes versiones del modelo HiDream-I1 disponibles en la comunidad y su soporte
- Flujos de trabajo para diferentes versiones del modelo
Dado que la versión completa de este modelo tiene altos requisitos de VRAM, puedes elegir una versión adecuada para tu dispositivo de la sección de modelos de la comunidad y aprender sobre los flujos de trabajo correspondientes. Recuerda consultar este artículo Actualizando ComfyUI a la última versión para asegurarte de que los nodos correspondientes funcionen correctamente.
Introducción a HiDream-I1
Características del Modelo
Diseño de Arquitectura Híbrida Combinando modelos de difusión (DiT) con una arquitectura de mezcla de expertos (MoE):
- El cuerpo principal se basa en el Transformador de Difusión (DiT), procesando información multimodal a través de un módulo MMDiT de doble flujo, mientras que un módulo DiT de flujo único optimiza la consistencia global.
- El mecanismo de enrutamiento dinámico asigna recursos computacionales de manera flexible, mejorando la capacidad para manejar escenas complejas, y tiene un excelente rendimiento en restauración de color, procesamiento de bordes y otros detalles.
Integración de Codificadores de Texto Multimodal Integra cuatro codificadores de texto:
- OpenCLIP ViT-bigG, OpenAI CLIP ViT-L (alineación visual-semántica)
- T5-XXL (análisis de texto largo)
- Llama-3.1-8B-Instruct (comprensión de instrucciones) Esta combinación logra un rendimiento de vanguardia en el análisis semántico complejo relacionado con color, cantidad, relaciones espaciales, etc., con un soporte significativamente mejor para los prompts en chino en comparación con modelos de código abierto similares.
Repositorio Original del Modelo
HiDream-ai proporciona tres versiones del modelo HiDream-I1 para satisfacer diferentes necesidades de escenario. A continuación se presentan los enlaces a los repositorios originales del modelo:
- Versión completa: 🤗 HiDream-I1-Full con 50 pasos de inferencia
- Versión de desarrollo destilada: 🤗 HiDream-I1-Dev con 28 pasos de inferencia
- Versión rápida destilada: 🤗 HiDream-I1-Fast con 16 pasos de inferencia
Versiones del Modelo HiDream-I1 de la Comunidad
Actualmente, hay muchas versiones variantes del modelo HiDream-I1 en la comunidad. Esta es una colección de versiones existentes organizadas por ComfyUI-Wiki. Sin embargo, debido a algunos problemas que encontré durante las pruebas, solo proporcionaré los flujos de trabajo correspondientes.
Versiones Reempaquetadas de ComfyOrg
El repositorio de ComfyOrg ofrece versiones reempaquetadas Full, Dev y Fast, incluyendo tanto la versión completa como la versión fp8. La versión completa requiere aproximadamente 20GB de VRAM, mientras que la versión fp8 requiere alrededor de 16GB de VRAM. Usaremos el ejemplo nativo para completar el flujo de trabajo.
Modelos de Versión GGUF
Los modelos de versión GGUF son proporcionados por city96:
El repositorio contiene múltiples versiones que van desde Q8 hasta Q2, con Q4 requiriendo aproximadamente 12GB de VRAM y Q2 requiriendo alrededor de 8GB de VRAM. Si no estás seguro, puedes comenzar a probar con la versión más pequeña.
Necesitarás usar el nodo Unet loader(GGUF)
de ComfyUI-GGUF para cargar los modelos, y modificaremos ligeramente los nodos oficiales para completar el flujo de trabajo.
Modelos de Versión NF4
Esta versión utiliza tecnología de cuantización de 4 bits para reducir el uso de memoria y puede funcionar con aproximadamente 16GB de VRAM.
- HiDream-I1-Full-nf4
- HiDream-I1-Dev-nf4
- HiDream-I1-Fast-nf4
- Usa el nodo ComfyUI-HiDream-Sampler para utilizar los modelos de versión NF4. Este nodo fue proporcionado originalmente por lum3on.
El ComfyUI-HiDream-Sampler descargará los modelos en la primera ejecución e implementará una funcionalidad no oficial de imagen a imagen. También completaremos los ejemplos correspondientes en este documento.
Instalación Compartida del Modelo
Los archivos del modelo a continuación se utilizarán en varios flujos de trabajo, por lo que podemos comenzar a descargarlos y referirnos a las ubicaciones de almacenamiento de archivos del modelo. Proporcionaremos enlaces de descarga para los correspondientes modelos de difusión en los flujos de trabajo relevantes.
Codificadores de Texto:
- clip_l_hidream.safetensors
- clip_g_hidream.safetensors
- t5xxl_fp8_e4m3fn_scaled.safetensors Esta es una versión ligera de T5XXL, que ya puedes tener.
- llama_3.1_8b_instruct_fp8_scaled.safetensors
VAE
- ae.safetensors Este es el modelo VAE de Flux. Si has utilizado el flujo de trabajo de Flux, ya tienes este archivo.
Modelos de Difusión Te guiaremos para descargar los archivos de modelo correspondientes en los flujos de trabajo relevantes.
Ubicaciones de almacenamiento de archivos del modelo
📂 ComfyUI/
├── 📂 models/
│ ├── 📂 text_encoders/
│ │ ├─── clip_l_hidream.safetensors
│ │ ├─── clip_g_hidream.safetensors
│ │ ├─── t5xxl_fp8_e4m3fn_scaled.safetensors
│ │ └─── llama_3.1_8b_instruct_fp8_scaled.safetensors
│ └── 📂 vae/
│ │ └── ae.safetensors
│ └── 📂 diffusion_models/
│ └── ... # Se guiará para instalar en la versión correspondiente del flujo de trabajo.
Flujo de Trabajo Nativo de ComfyUI HiDream-I1
El flujo de trabajo nativo se ha detallado en la documentación oficial que escribí para Comfy, titulada Ejemplo de Flujo de Trabajo Nativo de ComfyUI HiDream-I1. Sin embargo, dado que la documentación oficial actualmente solo admite chino e inglés, también proporcionaré ejemplos correspondientes en esta guía, considerando el soporte multilingüe de ComfyUI Wiki.
En la documentación oficial, he escrito flujos de trabajo completos para las versiones completa, dev y rápida. Estos tres flujos de trabajo generalmente utilizan los mismos modelos y flujos de trabajo, con solo algunos parámetros y modelos que difieren. Por lo tanto, solo utilizaremos una versión del flujo de trabajo aquí y complementaremos la configuración relevante para las otras dos versiones para evitar repeticiones excesivas en este documento.
1. Descarga del Archivo del Flujo de Trabajo
Por favor, descarga la imagen a continuación y arrástrala a ComfyUI para cargar el flujo de trabajo correspondiente. El archivo contiene información de descarga de modelos incrustada, y ComfyUI verificará si los archivos de modelo correspondientes existen en los subdirectorios de primer nivel. Sin embargo, no puede verificar si los archivos de modelo existen en subdirectorios de segundo nivel como ComfyUI/models/text_encoders/hidream/
.
Si ya has descargado los modelos correspondientes, puedes ignorar los mensajes. El flujo de trabajo a continuación utiliza el modelo hidream_i1_dev_fp8.safetensors
. Si necesitas usar otras versiones, consulta la sección de descarga manual de modelos para descargar los modelos correspondientes.
Descarga el flujo de trabajo en formato JSON
2. Descarga Manual del Modelo
A continuación se presentan los archivos de modelo para diferentes versiones de HiDream-I1. Puedes elegir la versión apropiada según tu capacidad de VRAM y guardarla en la carpeta ComfyUI/models/diffusion_models/
.
Nombre del Modelo | Versión | Precisión | Tamaño del Archivo | Requisito de VRAM | Enlace de Descarga |
---|---|---|---|---|---|
hidream_i1_full_fp16.safetensors | completo | fp16 | 34.2 GB | 20GB | Enlace de Descarga |
hidream_i1_dev_bf16.safetensors | dev | bf16 | 34.2 GB | 20GB | Enlace de Descarga |
hidream_i1_fast_bf16.safetensors | rápido | bf16 | 34.2 GB | 20GB | Enlace de Descarga |
hidream_i1_full_fp8.safetensors | completo | fp8 | 17.1 GB | 16GB | Enlace de Descarga |
hidream_i1_dev_fp8.safetensors | dev | fp8 | 17.1 GB | 16GB | Enlace de Descarga |
hidream_i1_fast_fp8.safetensors | rápido | fp8 | 17.1 GB | 16GB | Enlace de Descarga |
Para referencia: La versión dev fp8 tomó 62 segundos para la primera generación y 20 segundos para la segunda generación en una 4090 de 24GB.
3. Sigue los pasos para ejecutar el flujo de trabajo
Sigue los pasos para ejecutar el flujo de trabajo
- Asegúrate de que el nodo
Cargar Modelo de Difusión
esté utilizando elhidream_i1_dev_fp8.safetensors
o la versión que descargaste. - Asegúrate de que los cuatro codificadores de texto correspondientes en el
QuadrupleCLIPLoader
estén cargados correctamente:- clip_l_hidream.safetensors
- clip_g_hidream.safetensors
- t5xxl_fp8_e4m3fn_scaled.safetensors
- llama_3.1_8b_instruct_fp8_scaled.safetensors
- Asegúrate de que el nodo
Cargar VAE
esté utilizando el archivoae.safetensors
. - Para la versión dev, necesitas establecer el parámetro
shift
enModelSamplingSD3
a3.0
para la versión completa,6.0
para la versión dev y3.0
para la versión rápida. - Para el nodo
Ksampler
, necesitas configurarlo de acuerdo con la versión del modelo que descargaste:steps
:50
para la versión completa,28
para la versión dev,16
para la versión rápida.cfg
: establece en5.0
para la versión completa,1.0
para la versión dev y1.0
para la versión rápida (las versiones dev y rápida no tienen indicaciones negativas).- (Opcional) Establece
sampler
alcm
. - (Opcional) Establece
scheduler
anormal
.
- Haz clic en el botón
Ejecutar
, o usa el atajoCtrl(cmd) + Enter
para ejecutar la generación de imágenes.
4. Configuración de parámetros para diferentes versiones de modelos HiDream-I1
Puedes utilizar directamente el flujo de trabajo correspondiente en la plantilla de flujo de trabajo de ComfyUI. Al colaborar con ComfyOrg para lanzar el soporte de modelos correspondiente, ya he configurado los parámetros correspondientes en los respectivos modelos.
HiDream Completo
- Archivo del modelo: hidream_i1_full_fp16.safetensors
- Parámetro
shift
del nodoModelSamplingSD3
: 3.0 - Nodo
Ksampler
:- pasos: 50
- muestreador: uni_pc
- programador: simple
- cfg: 5.0
HiDream Dev
- Archivo del modelo: hidream_i1_dev_bf16.safetensors
- Parámetro
shift
del nodoModelSamplingSD3
: 6.0 - Nodo
Ksampler
:- pasos: 28
- muestreador: lcm
- programador: normal
- cfg: 1.0 (sin indicaciones negativas)
HiDream Rápido
- Archivo del modelo: hidream_i1_fast_bf16.safetensors
- Parámetro
shift
del nodoModelSamplingSD3
: 3.0 - Nodo
Ksampler
:- pasos: 16
- muestreador: lcm
- programador: normal
- cfg: 1.0 (sin indicaciones negativas)
Flujo de trabajo de la versión HiDream-I1 GGUF
La versión GGUF utiliza el modelo de versión GGUF proporcionado por city96. Modificaremos ligeramente los nodos oficiales para completar el flujo de trabajo.
Necesitas instalar el plugin ComfyUI-GGUF o actualizar la versión previamente instalada, y usar el nodo Unet loader(GGUF)
para cargar el modelo. Luego puedes cargar mi flujo de trabajo y utilizar la función de verificación de nodos faltantes del ComfyUI-Manager para instalar los nodos correspondientes, o consultar instalación de nodos personalizados para la instalación manual.
1. Descarga manual del modelo
La información del archivo de flujo de trabajo de ComfyUI solo admite la incrustación de información del modelo para archivos .sft
y .safetensors
, por lo que para el modelo de versión GGUF, necesitamos descargar el modelo manualmente primero.
Los repositorios correspondientes completo, dev y rápido proporcionan múltiples versiones de archivos de modelo desde Q8 hasta Q2 para cada versión, y puedes elegir la versión apropiada según tu situación de VRAM y descargarla en la carpeta ComfyUI/models/diffusion_models/
.
Para referencia: La versión dev-Q5-1 tomó 162 segundos para la primera generación y 58 segundos para la segunda generación en una 4090 de 24GB.
Para otros modelos requeridos, consulta la sección de instalación de modelos compartidos.
2. Archivo de flujo de trabajo
Por favor, descarga la imagen a continuación y arrástrala a ComfyUI para cargar el flujo de trabajo correspondiente.
Descarga el flujo de trabajo en formato JSON.
3. Completa la ejecución del flujo de trabajo paso a paso
Dado que solo reemplazamos el nodo Cargar Modelo de Difusión
con el nodo Unet loader(GGUF)
, todo lo demás es completamente consistente con el flujo de trabajo original.
Sigue los pasos para completar la ejecución del flujo de trabajo:
- Asegúrate de que el nodo
Unet loader(GGUF)
esté utilizando el archivo de modelo de versión GGUF que descargaste. - Asegúrate de que los cuatro codificadores de texto correspondientes en el
QuadrupleCLIPLoader
estén cargados correctamente:- clip_l_hidream.safetensors
- clip_g_hidream.safetensors
- t5xxl_fp8_e4m3fn_scaled.safetensors
- llama_3.1_8b_instruct_fp8_scaled.safetensors
- Asegúrate de que el nodo
Cargar VAE
esté utilizando el archivoae.safetensors
. - Para la versión dev, necesitas establecer el parámetro
shift
enModelSamplingSD3
a3.0
para la versión completa,6.0
para la versión dev y3.0
para la versión rápida. - Para el nodo
Ksampler
, necesitas configurarlo de acuerdo con la versión del modelo que descargaste:pasos
:50
para la versión completa,28
para la versión dev,16
para la versión rápida.cfg
: establece en5.0
para la versión completa,1.0
para la versión dev y1.0
para la versión rápida (las versiones dev y rápida no tienen indicaciones negativas).- (Opcional) Establece
muestreador
alcm
. - (Opcional) Establece
programador
anormal
.
- Haz clic en el botón
Ejecutar
, o usa el atajoCtrl(cmd) + Enter
para ejecutar la generación de imágenes.
4. Configuración de parámetros para diferentes modelos de versión HiDream-I1 GGUF
Consulta la sección del flujo de trabajo original para la configuración.
Flujo de trabajo de la versión HiDream-I1 NF4
Esta versión requiere la instalación del plugin ComfyUI-HiDream-Sampler, creado originalmente por lum3on.
Los nodos deberían descargar automáticamente el modelo, pero encontré que no había un registro de descarga correspondiente después de la instalación, ya que no puedes instalar manualmente el modelo o elegir la ubicación del modelo tú mismo, lo que me hizo sentir un poco fuera de control. Sin embargo, sus ejemplos de flujo de trabajo ya han implementado la funcionalidad de imagen a imagen. Después de la instalación, deberías poder encontrar una carpeta de flujo de trabajo de muestra en el directorio correspondiente o visitar sample-workflow para obtenerla. Las imágenes a continuación también incluyen los flujos de trabajo correspondientes. Si lo pruebas con éxito, házmelo saber en los comentarios cómo proceder. :)