Skip to content
Follow me on X
ComfyUI Wiki
ActualitésAlibaba AIDC-AI lance Ovis-Image - Modèle de génération d'images 7B optimisé pour le rendu de texte
Aucun article pour le moment. Revenez plus tard !

Alibaba AIDC-AI lance Ovis-Image - Modèle de génération d’images 7B optimisé pour le rendu de texte

Ovis-Image

Le 29 novembre 2025, l’équipe AIDC-AI d’Alibaba a lancé Ovis-Image, un modèle texte-vers-image de 7B paramètres développé sur la base d’Ovis-U1. Ce modèle est spécifiquement optimisé pour le rendu de texte de haute qualité et peut fonctionner efficacement avec des ressources de calcul limitées.

Caractéristiques du modèle

Rendu de texte à échelle compacte

Ovis-Image a une taille de paramètres de 2B+7B. Par rapport à des modèles plus grands comme Qwen-Image (7B+20B), Ovis-Image atteint des performances comparables voire supérieures dans les tâches de rendu de texte. Sur le benchmark CVTG-2K, Ovis-Image a atteint une précision de rendu de texte (WA moyen) de 0.9200, nettement supérieure aux 0.8288 de Qwen-Image et aux 0.8569 de GPT4o.

Sortie haute fidélité pour les scénarios riches en texte

Le modèle excelle dans les scénarios nécessitant un alignement précis texte-image, notamment :

  • Conception d’affiches et de bannières
  • Logos et graphiques de marque
  • Maquettes d’interface utilisateur
  • Infographies

Ovis-Image génère un texte clair et lisible avec une orthographe correcte et une cohérence sémantique à travers différentes polices, tailles et proportions.

Facilité de déploiement

Avec sa taille de 7B paramètres et son architecture rationalisée, Ovis-Image :

  • Fonctionne sur un seul GPU haut de gamme
  • Prend en charge une utilisation interactive à faible latence
  • Convient aux scénarios de production nécessitant le rendu de texte sans déployer des modèles de dizaines de milliards de paramètres

Performance

Benchmark de rendu de texte CVTG-2K

ModèleParamètresWA (moy)NED↑CLIPScore↑
GPT4o-0.85690.94780.7982
Qwen-Image7B+20B0.82880.91160.8017
TextCrafter11B+12B0.73700.86790.7868
Ovis-Image2B+7B0.92000.96950.8368

LongText-Bench Rendu de texte long

ModèleParamètresAnglaisChinois
GPT4o-0.9560.619
Qwen-Image7B+20B0.9430.946
Ovis-Image2B+7B0.9220.964

Pour le rendu de texte long en chinois, Ovis-Image a surpassé tous les modèles testés avec un score de 0.964.

Génération d’images générale

Au-delà du rendu de texte, Ovis-Image maintient de solides performances sur les benchmarks généraux texte-vers-image comme DPG-Bench et GenEval :

  • DPG-Bench Overall : 86.59 (Qwen-Image : 88.32)
  • GenEval Overall : 0.84 (au même niveau que GPT4o)
  • OneIG-EN Overall : 0.530 (proche des 0.539 de Qwen-Image)

Contexte technique

Ovis-Image est construit sur Ovis-U1 et intègre des éléments de conception de FLUX. Le modèle a été testé avec Python 3.10, Torch 2.6.0 et Transformers 4.57.1.

L’équipe de développement a également publié une branche diffusers dédiée pour faciliter l’adoption.

Comment l’essayer

Les utilisateurs peuvent découvrir Ovis-Image via :

  • Démo en ligne : Essayer le modèle directement sur Hugging Face Space
  • Déploiement local : Exécuter l’inférence locale via PyTorch ou la bibliothèque Diffusers

Liens connexes