Alibaba AIDC-AI lanza Ovis-Image - Modelo de generación de imágenes de 7B optimizado para renderizado de texto

El 29 de noviembre de 2025, el equipo AIDC-AI de Alibaba lanzó Ovis-Image, un modelo de texto a imagen de 7B parámetros desarrollado sobre Ovis-U1. Este modelo está específicamente optimizado para el renderizado de texto de alta calidad y puede ejecutarse eficientemente con recursos computacionales limitados.

Características del modelo

Renderizado de texto a escala compacta

Ovis-Image tiene un tamaño de parámetros de 2B+7B. En comparación con modelos más grandes como Qwen-Image (7B+20B), Ovis-Image logra un rendimiento comparable o incluso superior en tareas de renderizado de texto. En el benchmark CVTG-2K, Ovis-Image alcanzó una precisión de renderizado de texto (WA promedio) de 0.9200, significativamente mayor que el 0.8288 de Qwen-Image y el 0.8569 de GPT4o.

Salida de alta fidelidad para escenarios con mucho texto

El modelo sobresale en escenarios que requieren una alineación precisa entre texto e imagen, incluyendo:

Diseño de carteles y banners
Logotipos y gráficos de marca
Maquetas de interfaz de usuario
Infografías

Ovis-Image genera texto claro y legible con ortografía correcta y consistencia semántica en diferentes fuentes, tamaños y proporciones.

Fácil de implementar

Con su tamaño de 7B parámetros y arquitectura optimizada, Ovis-Image:

Se ejecuta en una sola GPU de gama alta
Soporta uso interactivo de baja latencia
Es adecuado para escenarios de producción que requieren renderizado de texto sin implementar modelos de decenas de miles de millones de parámetros

Rendimiento

Benchmark de renderizado de texto CVTG-2K

--|

| | GPT4o | - | 0.8569 | 0.9478 | 0.7982 | | Qwen-Image | 7B+20B | 0.8288 | 0.9116 | 0.8017 | | TextCrafter | 11B+12B | 0.7370 | 0.8679 | 0.7868 | | Ovis-Image | 2B+7B | 0.9200 | 0.9695 | 0.8368 |

LongText-Bench Renderizado de texto largo

--|

-| | GPT4o | - | 0.956 | 0.619 | | Qwen-Image | 7B+20B | 0.943 | 0.946 | | Ovis-Image | 2B+7B | 0.922 | 0.964 |

Para el renderizado de texto largo en chino, Ovis-Image superó a todos los modelos probados con una puntuación de 0.964.

Generación de imágenes general

Más allá del renderizado de texto, Ovis-Image mantiene un rendimiento sólido en benchmarks generales de texto a imagen como DPG-Bench y GenEval:

DPG-Bench Overall: 86.59 (Qwen-Image: 88.32)
GenEval Overall: 0.84 (a la par con GPT4o)
OneIG-EN Overall: 0.530 (cercano al 0.539 de Qwen-Image)

Contexto técnico

Ovis-Image está construido sobre Ovis-U1 e incorpora elementos de diseño de FLUX. El modelo ha sido probado con Python 3.10, Torch 2.6.0 y Transformers 4.57.1.

El equipo de desarrollo también ha publicado una rama dedicada de diffusers para facilitar su adopción.

Cómo probarlo

Los usuarios pueden experimentar Ovis-Image a través de:

Demo en línea: Probar el modelo directamente en Hugging Face Space
Implementación local: Ejecutar inferencia local mediante PyTorch o la biblioteca Diffusers

Enlaces relacionados

Artículo: https://arxiv.org/abs/2511.22982
Modelo: https://huggingface.co/AIDC-AI/Ovis-Image-7B
Demo en línea: https://huggingface.co/spaces/AIDC-AI/Ovis-Image-7B
GitHub: https://github.com/AIDC-AI/Ovis-Image