HiDream-I1: Nueva era en la generación de imágenes de código abierto
HiDream.ai lanzó oficialmente como código abierto su último modelo de texto a imagen HiDream-I1 el 7 de abril de 2025. Con 17B parámetros, este modelo puede generar imágenes de alta calidad en segundos y ha logrado puntuaciones líderes en múltiples pruebas de referencia.
Características del modelo
- ✨ Calidad de imagen superior - Compatible con estilos realistas, caricaturas, artísticos y otros variados, alcanzando resultados SOTA en la evaluación HPSv2.1, altamente alineado con las preferencias estéticas humanas
- 🎯 Excelente seguimiento de indicaciones - Rinde excepcionalmente bien en las pruebas GenEval y DPG, superando a todos los demás modelos de código abierto
- 🔓 Totalmente de código abierto - Publicado bajo licencia MIT, apoyando la investigación científica y aplicaciones innovadoras
- 💼 Compatible con negocios - Las imágenes generadas pueden usarse libremente para proyectos personales, investigación científica y aplicaciones comerciales
Versiones disponibles del modelo
HiDream.ai ofrece tres versiones del modelo HiDream-I1 para satisfacer diferentes necesidades:
Nombre del modelo | Pasos de inferencia | Características | Enlace al repositorio |
---|---|---|---|
HiDream-I1-Full | 50 | Versión completa, mejor calidad | 🤗 HiDream-I1-Full |
HiDream-I1-Dev | 28 | Versión destilada, equilibrio entre eficiencia y efectividad | 🤗 HiDream-I1-Dev |
HiDream-I1-Fast | 16 | Versión rápida, adecuada para necesidades de generación en tiempo real | 🤗 HiDream-I1-Fast |
Aspectos técnicos destacados
HiDream-I1 emplea un modelo DiT con arquitectura de Mezcla de Expertos (MoE), combinando bloques MMDiT de flujo dual con bloques DiT de flujo único, asignando eficientemente recursos de cómputo mediante mecanismos de enrutamiento dinámico. El modelo integra múltiples codificadores de texto, incluyendo OpenCLIP ViT-bigG, OpenAI CLIP ViT-L, T5-XXL y Llama-3.1-8B-Instruct, mejorando significativamente las capacidades de comprensión semántica.
Resultados de referencia
DPG-Bench
Modelo | General | Global | Entity | Attribute | Relation | Other |
---|---|---|---|---|---|---|
PixArt-alpha | 71.11 | 74.97 | 79.32 | 78.60 | 82.57 | 76.96 |
SDXL | 74.65 | 83.27 | 82.43 | 80.91 | 86.76 | 80.41 |
DALL-E 3 | 83.50 | 90.97 | 89.61 | 88.39 | 90.58 | 89.83 |
Flux.1-dev | 83.79 | 85.80 | 86.79 | 89.98 | 90.04 | 89.90 |
SD3-Medium | 84.08 | 87.90 | 91.01 | 88.83 | 80.70 | 88.68 |
Janus-Pro-7B | 84.19 | 86.90 | 88.90 | 89.40 | 89.32 | 89.48 |
CogView4-6B | 85.13 | 83.85 | 90.35 | 91.17 | 91.14 | 87.29 |
HiDream-I1 | 85.89 | 76.44 | 90.22 | 89.48 | 93.74 | 91.83 |
GenEval
Modelo | General | Single Obj. | Two Obj. | Counting | Colors | Position | Color attribution |
---|---|---|---|---|---|---|---|
SDXL | 0.55 | 0.98 | 0.74 | 0.39 | 0.85 | 0.15 | 0.23 |
PixArt-alpha | 0.48 | 0.98 | 0.50 | 0.44 | 0.80 | 0.08 | 0.07 |
Flux.1-dev | 0.66 | 0.98 | 0.79 | 0.73 | 0.77 | 0.22 | 0.45 |
DALL-E 3 | 0.67 | 0.96 | 0.87 | 0.47 | 0.83 | 0.43 | 0.45 |
CogView4-6B | 0.73 | 0.99 | 0.86 | 0.66 | 0.79 | 0.48 | 0.58 |
SD3-Medium | 0.74 | 0.99 | 0.94 | 0.72 | 0.89 | 0.33 | 0.60 |
Janus-Pro-7B | 0.80 | 0.99 | 0.89 | 0.59 | 0.90 | 0.79 | 0.66 |
HiDream-I1 | 0.83 | 1.00 | 0.98 | 0.79 | 0.91 | 0.60 | 0.72 |
HPSv2.1 benchmark
Modelo | Promedio | Animation | Concept-art | Painting | Photo |
---|---|---|---|---|---|
Stable Diffusion v2.0 | 26.38 | 27.09 | 26.02 | 25.68 | 26.73 |
Midjourney V6 | 30.29 | 32.02 | 30.29 | 29.74 | 29.10 |
SDXL | 30.64 | 32.84 | 31.36 | 30.86 | 27.48 |
Dall-E3 | 31.44 | 32.39 | 31.09 | 31.18 | 31.09 |
SD3 | 31.53 | 32.60 | 31.82 | 32.06 | 29.62 |
Midjourney V5 | 32.33 | 34.05 | 32.47 | 32.24 | 30.56 |
CogView4-6B | 32.31 | 33.23 | 32.60 | 32.89 | 30.52 |
Flux.1-dev | 32.47 | 33.87 | 32.27 | 32.62 | 31.11 |
stable cascade | 32.95 | 34.58 | 33.13 | 33.29 | 30.78 |
HiDream-I1 | 33.82 | 35.05 | 33.74 | 33.88 | 32.61 |
Primeros pasos
Para probar el modelo HiDream-I1, visite el repositorio GitHub del proyecto para obtener guías detalladas de instalación y uso: Repositorio GitHub de HiDream-I1
También puede descargar los pesos del modelo directamente desde Hugging Face, eligiendo la versión que se adapte a sus necesidades.
Consejo: El uso de este modelo requiere la instalación de Flash Attention, recomendándose la versión CUDA 12.4. El modelo también utiliza Llama-3.1-8B-Instruct, así que asegúrese de tener una conexión de red y espacio en disco adecuados.
Enlaces relacionados
- Sitio web del producto: https://vivago.ai/
- Repositorio GitHub: https://github.com/HiDream-ai/HiDream-I1
- Repositorios del modelo en Hugging Face: