Alibaba AIDC-AI lanza Ovis-Image - Modelo de generación de imágenes de 7B optimizado para renderizado de texto

El 29 de noviembre de 2025, el equipo AIDC-AI de Alibaba lanzó Ovis-Image, un modelo de texto a imagen de 7B parámetros desarrollado sobre Ovis-U1. Este modelo está específicamente optimizado para el renderizado de texto de alta calidad y puede ejecutarse eficientemente con recursos computacionales limitados.
Características del modelo
Renderizado de texto a escala compacta
Ovis-Image tiene un tamaño de parámetros de 2B+7B. En comparación con modelos más grandes como Qwen-Image (7B+20B), Ovis-Image logra un rendimiento comparable o incluso superior en tareas de renderizado de texto. En el benchmark CVTG-2K, Ovis-Image alcanzó una precisión de renderizado de texto (WA promedio) de 0.9200, significativamente mayor que el 0.8288 de Qwen-Image y el 0.8569 de GPT4o.
Salida de alta fidelidad para escenarios con mucho texto
El modelo sobresale en escenarios que requieren una alineación precisa entre texto e imagen, incluyendo:
- Diseño de carteles y banners
- Logotipos y gráficos de marca
- Maquetas de interfaz de usuario
- Infografías
Ovis-Image genera texto claro y legible con ortografía correcta y consistencia semántica en diferentes fuentes, tamaños y proporciones.
Fácil de implementar
Con su tamaño de 7B parámetros y arquitectura optimizada, Ovis-Image:
- Se ejecuta en una sola GPU de gama alta
- Soporta uso interactivo de baja latencia
- Es adecuado para escenarios de producción que requieren renderizado de texto sin implementar modelos de decenas de miles de millones de parámetros
Rendimiento
Benchmark de renderizado de texto CVTG-2K
| Modelo | Parámetros | WA (prom) | NED↑ | CLIPScore↑ |
|---|---|---|---|---|
| GPT4o | - | 0.8569 | 0.9478 | 0.7982 |
| Qwen-Image | 7B+20B | 0.8288 | 0.9116 | 0.8017 |
| TextCrafter | 11B+12B | 0.7370 | 0.8679 | 0.7868 |
| Ovis-Image | 2B+7B | 0.9200 | 0.9695 | 0.8368 |
LongText-Bench Renderizado de texto largo
| Modelo | Parámetros | Inglés | Chino |
|---|---|---|---|
| GPT4o | - | 0.956 | 0.619 |
| Qwen-Image | 7B+20B | 0.943 | 0.946 |
| Ovis-Image | 2B+7B | 0.922 | 0.964 |
Para el renderizado de texto largo en chino, Ovis-Image superó a todos los modelos probados con una puntuación de 0.964.
Generación de imágenes general
Más allá del renderizado de texto, Ovis-Image mantiene un rendimiento sólido en benchmarks generales de texto a imagen como DPG-Bench y GenEval:
- DPG-Bench Overall: 86.59 (Qwen-Image: 88.32)
- GenEval Overall: 0.84 (a la par con GPT4o)
- OneIG-EN Overall: 0.530 (cercano al 0.539 de Qwen-Image)
Contexto técnico
Ovis-Image está construido sobre Ovis-U1 e incorpora elementos de diseño de FLUX. El modelo ha sido probado con Python 3.10, Torch 2.6.0 y Transformers 4.57.1.
El equipo de desarrollo también ha publicado una rama dedicada de diffusers para facilitar su adopción.
Cómo probarlo
Los usuarios pueden experimentar Ovis-Image a través de:
- Demo en línea: Probar el modelo directamente en Hugging Face Space
- Implementación local: Ejecutar inferencia local mediante PyTorch o la biblioteca Diffusers
Enlaces relacionados
- Artículo: https://arxiv.org/abs/2511.22982
- Modelo: https://huggingface.co/AIDC-AI/Ovis-Image-7B
- Demo en línea: https://huggingface.co/spaces/AIDC-AI/Ovis-Image-7B
- GitHub: https://github.com/AIDC-AI/Ovis-Image