Aucun article pour le moment. Revenez plus tard !

Alibaba AIDC-AI lance Ovis-Image - Modèle de génération d’images 7B optimisé pour le rendu de texte

Ovis-Image

Le 29 novembre 2025, l’équipe AIDC-AI d’Alibaba a lancé Ovis-Image, un modèle texte-vers-image de 7B paramètres développé sur la base d’Ovis-U1. Ce modèle est spécifiquement optimisé pour le rendu de texte de haute qualité et peut fonctionner efficacement avec des ressources de calcul limitées.

Caractéristiques du modèle

Rendu de texte à échelle compacte

Ovis-Image a une taille de paramètres de 2B+7B. Par rapport à des modèles plus grands comme Qwen-Image (7B+20B), Ovis-Image atteint des performances comparables voire supérieures dans les tâches de rendu de texte. Sur le benchmark CVTG-2K, Ovis-Image a atteint une précision de rendu de texte (WA moyen) de 0.9200, nettement supérieure aux 0.8288 de Qwen-Image et aux 0.8569 de GPT4o.

Sortie haute fidélité pour les scénarios riches en texte

Le modèle excelle dans les scénarios nécessitant un alignement précis texte-image, notamment :

Conception d’affiches et de bannières
Logos et graphiques de marque
Maquettes d’interface utilisateur
Infographies

Ovis-Image génère un texte clair et lisible avec une orthographe correcte et une cohérence sémantique à travers différentes polices, tailles et proportions.

Facilité de déploiement

Avec sa taille de 7B paramètres et son architecture rationalisée, Ovis-Image :

Fonctionne sur un seul GPU haut de gamme
Prend en charge une utilisation interactive à faible latence
Convient aux scénarios de production nécessitant le rendu de texte sans déployer des modèles de dizaines de milliards de paramètres

Performance

Benchmark de rendu de texte CVTG-2K

Modèle	Paramètres	WA (moy)	NED↑	CLIPScore↑
GPT4o	-	0.8569	0.9478	0.7982
Qwen-Image	7B+20B	0.8288	0.9116	0.8017
TextCrafter	11B+12B	0.7370	0.8679	0.7868
Ovis-Image	2B+7B	0.9200	0.9695	0.8368

LongText-Bench Rendu de texte long

Modèle	Paramètres	Anglais	Chinois
GPT4o	-	0.956	0.619
Qwen-Image	7B+20B	0.943	0.946
Ovis-Image	2B+7B	0.922	0.964

Pour le rendu de texte long en chinois, Ovis-Image a surpassé tous les modèles testés avec un score de 0.964.

Génération d’images générale

Au-delà du rendu de texte, Ovis-Image maintient de solides performances sur les benchmarks généraux texte-vers-image comme DPG-Bench et GenEval :

DPG-Bench Overall : 86.59 (Qwen-Image : 88.32)
GenEval Overall : 0.84 (au même niveau que GPT4o)
OneIG-EN Overall : 0.530 (proche des 0.539 de Qwen-Image)

Contexte technique

Ovis-Image est construit sur Ovis-U1 et intègre des éléments de conception de FLUX. Le modèle a été testé avec Python 3.10, Torch 2.6.0 et Transformers 4.57.1.

L’équipe de développement a également publié une branche diffusers dédiée pour faciliter l’adoption.

Comment l’essayer

Les utilisateurs peuvent découvrir Ovis-Image via :

Démo en ligne : Essayer le modèle directement sur Hugging Face Space
Déploiement local : Exécuter l’inférence locale via PyTorch ou la bibliothèque Diffusers

Liens connexes

Article : https://arxiv.org/abs/2511.22982
Modèle : https://huggingface.co/AIDC-AI/Ovis-Image-7B
Démo en ligne : https://huggingface.co/spaces/AIDC-AI/Ovis-Image-7B
GitHub : https://github.com/AIDC-AI/Ovis-Image