Alibaba AIDC-AI lance Ovis-Image - Modèle de génération d'images 7B optimisé pour le rendu de texte

Le 29 novembre 2025, l'équipe AIDC-AI d'Alibaba a lancé Ovis-Image, un modèle texte-vers-image de 7B paramètres développé sur la base d'Ovis-U1. Ce modèle est spécifiquement optimisé pour le rendu de texte de haute qualité et peut fonctionner efficacement avec des ressources de calcul limitées.

Caractéristiques du modèle

Rendu de texte à échelle compacte

Ovis-Image a une taille de paramètres de 2B+7B. Par rapport à des modèles plus grands comme Qwen-Image (7B+20B), Ovis-Image atteint des performances comparables voire supérieures dans les tâches de rendu de texte. Sur le benchmark CVTG-2K, Ovis-Image a atteint une précision de rendu de texte (WA moyen) de 0.9200, nettement supérieure aux 0.8288 de Qwen-Image et aux 0.8569 de GPT4o.

Sortie haute fidélité pour les scénarios riches en texte

Le modèle excelle dans les scénarios nécessitant un alignement précis texte-image, notamment :

Conception d'affiches et de bannières
Logos et graphiques de marque
Maquettes d'interface utilisateur
Infographies

Ovis-Image génère un texte clair et lisible avec une orthographe correcte et une cohérence sémantique à travers différentes polices, tailles et proportions.

Facilité de déploiement

Avec sa taille de 7B paramètres et son architecture rationalisée, Ovis-Image :

Fonctionne sur un seul GPU haut de gamme
Prend en charge une utilisation interactive à faible latence
Convient aux scénarios de production nécessitant le rendu de texte sans déployer des modèles de dizaines de milliards de paramètres

Performance

Benchmark de rendu de texte CVTG-2K

--|

| | GPT4o | - | 0.8569 | 0.9478 | 0.7982 | | Qwen-Image | 7B+20B | 0.8288 | 0.9116 | 0.8017 | | TextCrafter | 11B+12B | 0.7370 | 0.8679 | 0.7868 | | Ovis-Image | 2B+7B | 0.9200 | 0.9695 | 0.8368 |

LongText-Bench Rendu de texte long

--|

| | GPT4o | - | 0.956 | 0.619 | | Qwen-Image | 7B+20B | 0.943 | 0.946 | | Ovis-Image | 2B+7B | 0.922 | 0.964 |

Pour le rendu de texte long en chinois, Ovis-Image a surpassé tous les modèles testés avec un score de 0.964.

Génération d'images générale

Au-delà du rendu de texte, Ovis-Image maintient de solides performances sur les benchmarks généraux texte-vers-image comme DPG-Bench et GenEval :

DPG-Bench Overall : 86.59 (Qwen-Image : 88.32)
GenEval Overall : 0.84 (au même niveau que GPT4o)
OneIG-EN Overall : 0.530 (proche des 0.539 de Qwen-Image)

Contexte technique

Ovis-Image est construit sur Ovis-U1 et intègre des éléments de conception de FLUX. Le modèle a été testé avec Python 3.10, Torch 2.6.0 et Transformers 4.57.1.

L'équipe de développement a également publié une branche diffusers dédiée pour faciliter l'adoption.

Comment l'essayer

Les utilisateurs peuvent découvrir Ovis-Image via :

Démo en ligne : Essayer le modèle directement sur Hugging Face Space
Déploiement local : Exécuter l'inférence locale via PyTorch ou la bibliothèque Diffusers

Liens connexes

Article : https://arxiv.org/abs/2511.22982
Modèle : https://huggingface.co/AIDC-AI/Ovis-Image-7B
Démo en ligne : https://huggingface.co/spaces/AIDC-AI/Ovis-Image-7B
GitHub : https://github.com/AIDC-AI/Ovis-Image