Tencent anuncia el lanzamiento de Hunyuan Image 3.0 - Modelo de generación de imágenes a partir de texto más grande del mundo de código abierto
Tencent publicó oficialmente como código abierto Hunyuan Image 3.0 el 28 de septiembre, el primer modelo nativo de generación de imágenes multimodal de grado comercial de código abierto, y actualmente el modelo de generación de imágenes de código abierto más grande con un número total de parámetros que alcanza los 80 mil millones.
Características principales
Escala de parámetros sin precedentes
Hunyuan Image 3.0 tiene un total de 80 mil millones de parámetros con 13 mil millones de parámetros activos, utilizando una arquitectura MoE (Mixture of Experts) con 64 expertos, lo que lo convierte en el modelo más grande de generación de imágenes a partir de texto de código abierto actualmente en el mundo.
Capacidad de razonamiento basada en conocimientos del mundo
El modelo posee capacidades multimodales nativas basadas en razonamiento de conocimientos del mundo, capaz de generar contenido de imagen más preciso y rico combinando sentido común y conocimientos profesionales. El modelo puede:
- Generar tutoriales de dibujo en rejilla de 3x3 e ilustraciones visuales de algoritmos
- Explicar principios físicos, eventos históricos y procesos biológicos
- Crear obras visuales basadas en literatura y poesía
Comprensión semántica compleja de miles de caracteres
Hunyuan Image 3.0 admite comprensión semántica compleja de más de 1000 caracteres, lo cual es extremadamente raro entre modelos de código abierto similares. El modelo es capaz de:
- Procesar descripciones de escenas complejas
- Comprender requisitos detallados multifacéticos
- Admite entrada en chino e inglés
Renderizado preciso de texto
El modelo tiene un rendimiento excepcional en la generación de texto dentro de imágenes, admitiendo:
- Texto de título en el diseño de carteles
- Texto de anotación en infografías
- Logotipos y marcas de marca
- Texto multilingüe combinado
Arquitectura técnica
Hunyuan Image 3.0 adopta una arquitectura innovadora MoE+Transfusion, que unifica las capacidades de comprensión y generación multimodal. A diferencia de las arquitecturas DiT tradicionales, este modelo utiliza un marco autoregresivo unificado, logrando una integración profunda de las modalidades de texto e imagen.
Datos de entrenamiento
- 5 mil millones de pares imagen-texto
- 6T tokens de texto
- Estrategia de entrenamiento progresivo
- Optimización de entrenamiento posterior con aprendizaje por refuerzo
Requisitos de uso
Configuración de hardware
Este modelo puede representar un gran reto para las GPU de consumo ordinarias, considerando su enorme tamaño de 80 mil millones de parámetros; incluso las versiones cuantizadas pueden ser difíciles de ejecutar sin problemas en GPU de consumo ordinarias.
- GPU: ≥3×80GB de VRAM (recomendado 4×80GB)
- Almacenamiento: 170GB de espacio disponible
- Memoria: más de 64GB de RAM del sistema
- Sistema: Linux + CUDA 12.8
Plan de código abierto
Hunyuan Image 3.0 proporciona una solución completa de código abierto, incluyendo:
- Código de inferencia y pesos del modelo
- Versión base HunyuanImage-3.0
- Versión HunyuanImage-3.0-Instruct (admite capacidades de razonamiento)
- En el futuro admitirá generación de imagen a imagen, interacción multiturno y otras funciones
Licencia de código abierto
Hunyuan Image 3.0 utiliza la licencia de código abierto Tencent Hunyuan Community License Agreement. Esta licencia permite:
- Uso, copia, distribución y modificación gratuitos del modelo por parte de particulares y empresas
- Admite uso comercial y desarrollo de trabajos derivados
- Permite la provisión de servicios alojados a través de API u otros medios
Restricciones importantes
- Restricciones geográficas: Esta licencia no se aplica a las regiones de la UE, Reino Unido y Corea del Sur
- Limitaciones de escala de usuarios: Si su producto o servicio tiene más de 100 millones de usuarios activos mensuales, debe solicitar a Tencent una licencia adicional
- Restricciones de uso: Prohíbe el uso de las salidas del modelo para mejorar otros modelos de IA (excepto para la serie Hunyuan)
- Requisitos de cumplimiento: Debe cumplir con las leyes y regulaciones de varios países y las políticas de uso aceptable
Enlaces relacionados
- Sitio web oficial: https://hunyuan.tencent.com/image
- Repositorio de GitHub: https://github.com/Tencent-Hunyuan/HunyuanImage-3.0
- Modelo en HuggingFace: https://huggingface.co/tencent/HunyuanImage-3.0
- Informe técnico: Informe técnico de HunyuanImage 3.0