Skip to content
Follow me on X
ComfyUI Wiki
NoticiasAlibaba AIDC-AI lanza Ovis-Image - Modelo de generación de imágenes de 7B optimizado para renderizado de texto

Alibaba AIDC-AI lanza Ovis-Image - Modelo de generación de imágenes de 7B optimizado para renderizado de texto

Ovis-Image

El 29 de noviembre de 2025, el equipo AIDC-AI de Alibaba lanzó Ovis-Image, un modelo de texto a imagen de 7B parámetros desarrollado sobre Ovis-U1. Este modelo está específicamente optimizado para el renderizado de texto de alta calidad y puede ejecutarse eficientemente con recursos computacionales limitados.

Características del modelo

Renderizado de texto a escala compacta

Ovis-Image tiene un tamaño de parámetros de 2B+7B. En comparación con modelos más grandes como Qwen-Image (7B+20B), Ovis-Image logra un rendimiento comparable o incluso superior en tareas de renderizado de texto. En el benchmark CVTG-2K, Ovis-Image alcanzó una precisión de renderizado de texto (WA promedio) de 0.9200, significativamente mayor que el 0.8288 de Qwen-Image y el 0.8569 de GPT4o.

Salida de alta fidelidad para escenarios con mucho texto

El modelo sobresale en escenarios que requieren una alineación precisa entre texto e imagen, incluyendo:

  • Diseño de carteles y banners
  • Logotipos y gráficos de marca
  • Maquetas de interfaz de usuario
  • Infografías

Ovis-Image genera texto claro y legible con ortografía correcta y consistencia semántica en diferentes fuentes, tamaños y proporciones.

Fácil de implementar

Con su tamaño de 7B parámetros y arquitectura optimizada, Ovis-Image:

  • Se ejecuta en una sola GPU de gama alta
  • Soporta uso interactivo de baja latencia
  • Es adecuado para escenarios de producción que requieren renderizado de texto sin implementar modelos de decenas de miles de millones de parámetros

Rendimiento

Benchmark de renderizado de texto CVTG-2K

ModeloParámetrosWA (prom)NED↑CLIPScore↑
GPT4o-0.85690.94780.7982
Qwen-Image7B+20B0.82880.91160.8017
TextCrafter11B+12B0.73700.86790.7868
Ovis-Image2B+7B0.92000.96950.8368

LongText-Bench Renderizado de texto largo

ModeloParámetrosInglésChino
GPT4o-0.9560.619
Qwen-Image7B+20B0.9430.946
Ovis-Image2B+7B0.9220.964

Para el renderizado de texto largo en chino, Ovis-Image superó a todos los modelos probados con una puntuación de 0.964.

Generación de imágenes general

Más allá del renderizado de texto, Ovis-Image mantiene un rendimiento sólido en benchmarks generales de texto a imagen como DPG-Bench y GenEval:

  • DPG-Bench Overall: 86.59 (Qwen-Image: 88.32)
  • GenEval Overall: 0.84 (a la par con GPT4o)
  • OneIG-EN Overall: 0.530 (cercano al 0.539 de Qwen-Image)

Contexto técnico

Ovis-Image está construido sobre Ovis-U1 e incorpora elementos de diseño de FLUX. El modelo ha sido probado con Python 3.10, Torch 2.6.0 y Transformers 4.57.1.

El equipo de desarrollo también ha publicado una rama dedicada de diffusers para facilitar su adopción.

Cómo probarlo

Los usuarios pueden experimentar Ovis-Image a través de:

  • Demo en línea: Probar el modelo directamente en Hugging Face Space
  • Implementación local: Ejecutar inferencia local mediante PyTorch o la biblioteca Diffusers

Enlaces relacionados