Alibaba AIDC-AI lance Ovis-Image - Modèle de génération d’images 7B optimisé pour le rendu de texte

Le 29 novembre 2025, l’équipe AIDC-AI d’Alibaba a lancé Ovis-Image, un modèle texte-vers-image de 7B paramètres développé sur la base d’Ovis-U1. Ce modèle est spécifiquement optimisé pour le rendu de texte de haute qualité et peut fonctionner efficacement avec des ressources de calcul limitées.
Caractéristiques du modèle
Rendu de texte à échelle compacte
Ovis-Image a une taille de paramètres de 2B+7B. Par rapport à des modèles plus grands comme Qwen-Image (7B+20B), Ovis-Image atteint des performances comparables voire supérieures dans les tâches de rendu de texte. Sur le benchmark CVTG-2K, Ovis-Image a atteint une précision de rendu de texte (WA moyen) de 0.9200, nettement supérieure aux 0.8288 de Qwen-Image et aux 0.8569 de GPT4o.
Sortie haute fidélité pour les scénarios riches en texte
Le modèle excelle dans les scénarios nécessitant un alignement précis texte-image, notamment :
- Conception d’affiches et de bannières
- Logos et graphiques de marque
- Maquettes d’interface utilisateur
- Infographies
Ovis-Image génère un texte clair et lisible avec une orthographe correcte et une cohérence sémantique à travers différentes polices, tailles et proportions.
Facilité de déploiement
Avec sa taille de 7B paramètres et son architecture rationalisée, Ovis-Image :
- Fonctionne sur un seul GPU haut de gamme
- Prend en charge une utilisation interactive à faible latence
- Convient aux scénarios de production nécessitant le rendu de texte sans déployer des modèles de dizaines de milliards de paramètres
Performance
Benchmark de rendu de texte CVTG-2K
| Modèle | Paramètres | WA (moy) | NED↑ | CLIPScore↑ |
|---|---|---|---|---|
| GPT4o | - | 0.8569 | 0.9478 | 0.7982 |
| Qwen-Image | 7B+20B | 0.8288 | 0.9116 | 0.8017 |
| TextCrafter | 11B+12B | 0.7370 | 0.8679 | 0.7868 |
| Ovis-Image | 2B+7B | 0.9200 | 0.9695 | 0.8368 |
LongText-Bench Rendu de texte long
| Modèle | Paramètres | Anglais | Chinois |
|---|---|---|---|
| GPT4o | - | 0.956 | 0.619 |
| Qwen-Image | 7B+20B | 0.943 | 0.946 |
| Ovis-Image | 2B+7B | 0.922 | 0.964 |
Pour le rendu de texte long en chinois, Ovis-Image a surpassé tous les modèles testés avec un score de 0.964.
Génération d’images générale
Au-delà du rendu de texte, Ovis-Image maintient de solides performances sur les benchmarks généraux texte-vers-image comme DPG-Bench et GenEval :
- DPG-Bench Overall : 86.59 (Qwen-Image : 88.32)
- GenEval Overall : 0.84 (au même niveau que GPT4o)
- OneIG-EN Overall : 0.530 (proche des 0.539 de Qwen-Image)
Contexte technique
Ovis-Image est construit sur Ovis-U1 et intègre des éléments de conception de FLUX. Le modèle a été testé avec Python 3.10, Torch 2.6.0 et Transformers 4.57.1.
L’équipe de développement a également publié une branche diffusers dédiée pour faciliter l’adoption.
Comment l’essayer
Les utilisateurs peuvent découvrir Ovis-Image via :
- Démo en ligne : Essayer le modèle directement sur Hugging Face Space
- Déploiement local : Exécuter l’inférence locale via PyTorch ou la bibliothèque Diffusers
Liens connexes
- Article : https://arxiv.org/abs/2511.22982
- Modèle : https://huggingface.co/AIDC-AI/Ovis-Image-7B
- Démo en ligne : https://huggingface.co/spaces/AIDC-AI/Ovis-Image-7B
- GitHub : https://github.com/AIDC-AI/Ovis-Image