Tencent publica Hunyuan Image 3.0 como código abierto - Modelo de generación de imágenes a partir de texto más grande del mundo

Tencent publicó oficialmente como código abierto Hunyuan Image 3.0 el 28 de septiembre, el primer modelo nativo de generación de imágenes multimodal de grado comercial de código abierto, y actualmente el modelo de generación de imágenes de código abierto más grande con un número total de parámetros que alcanza los 80 mil millones.

Características principales

Escala de parámetros sin precedentes

Hunyuan Image 3.0 tiene un total de 80 mil millones de parámetros con 13 mil millones de parámetros activos, utilizando una arquitectura MoE (Mixture of Experts) con 64 expertos, lo que lo convierte en el modelo más grande de generación de imágenes a partir de texto de código abierto actualmente en el mundo.

Capacidad de razonamiento basada en conocimientos del mundo

El modelo posee capacidades multimodales nativas basadas en razonamiento de conocimientos del mundo, capaz de generar contenido de imagen más preciso y rico combinando sentido común y conocimientos profesionales. El modelo puede:

Generar tutoriales de dibujo en rejilla de 3x3 e ilustraciones visuales de algoritmos
Explicar principios físicos, eventos históricos y procesos biológicos
Crear obras visuales basadas en literatura y poesía

Comprensión semántica compleja de miles de caracteres

Hunyuan Image 3.0 admite comprensión semántica compleja de más de 1000 caracteres, lo cual es extremadamente raro entre modelos de código abierto similares. El modelo es capaz de:

Procesar descripciones de escenas complejas
Comprender requisitos detallados multifacéticos
Admite entrada en chino e inglés

Renderizado preciso de texto

El modelo tiene un rendimiento excepcional en la generación de texto dentro de imágenes, admitiendo:

Texto de título en el diseño de carteles
Texto de anotación en infografías
Logotipos y marcas de marca
Texto multilingüe combinado

Arquitectura técnica

Hunyuan Image 3.0 adopta una arquitectura innovadora MoE+Transfusion, que unifica las capacidades de comprensión y generación multimodal. A diferencia de las arquitecturas DiT tradicionales, este modelo utiliza un marco autoregresivo unificado, logrando una integración profunda de las modalidades de texto e imagen.

Datos de entrenamiento

5 mil millones de pares imagen-texto
6T tokens de texto
Estrategia de entrenamiento progresivo
Optimización de entrenamiento posterior con aprendizaje por refuerzo

Requisitos de uso

Configuración de hardware

Este modelo puede representar un gran reto para las GPU de consumo ordinarias, considerando su enorme tamaño de 80 mil millones de parámetros; incluso las versiones cuantizadas pueden ser difíciles de ejecutar sin problemas en GPU de consumo ordinarias.

GPU: ≥3×80GB de VRAM (recomendado 4×80GB)
Almacenamiento: 170GB de espacio disponible
Memoria: más de 64GB de RAM del sistema
Sistema: Linux + CUDA 12.8

Plan de código abierto

Hunyuan Image 3.0 proporciona una solución completa de código abierto, incluyendo:

Código de inferencia y pesos del modelo
Versión base HunyuanImage-3.0
Versión HunyuanImage-3.0-Instruct (admite capacidades de razonamiento)
En el futuro admitirá generación de imagen a imagen, interacción multiturno y otras funciones

Licencia de código abierto

Hunyuan Image 3.0 utiliza la licencia de código abierto Tencent Hunyuan Community License Agreement. Esta licencia permite:

Uso, copia, distribución y modificación gratuitos del modelo por parte de particulares y empresas
Admite uso comercial y desarrollo de trabajos derivados
Permite la provisión de servicios alojados a través de API u otros medios

Restricciones importantes

Restricciones geográficas: Esta licencia no se aplica a las regiones de la UE, Reino Unido y Corea del Sur
Limitaciones de escala de usuarios: Si su producto o servicio tiene más de 100 millones de usuarios activos mensuales, debe solicitar a Tencent una licencia adicional
Restricciones de uso: Prohíbe el uso de las salidas del modelo para mejorar otros modelos de IA (excepto para la serie Hunyuan)
Requisitos de cumplimiento: Debe cumplir con las leyes y regulaciones de varios países y las políticas de uso aceptable

Enlaces relacionados

Sitio web oficial: https://hunyuan.tencent.com/image
Repositorio de GitHub: https://github.com/Tencent-Hunyuan/HunyuanImage-3.0
Modelo en HuggingFace: https://huggingface.co/tencent/HunyuanImage-3.0
Informe técnico: Informe técnico de HunyuanImage 3.0