Alibaba AIDC-AI выпускает Ovis-Image — модель генерации изображений 7B, оптимизированную для рендеринга текста

Ovis-Image

29 ноября 2025 года команда AIDC-AI от Alibaba выпустила Ovis-Image — модель преобразования текста в изображение с 7B параметрами, разработанную на базе Ovis-U1. Модель специально оптимизирована для высококачественного рендеринга текста и может эффективно работать при ограниченных вычислительных ресурсах.

Особенности модели

Рендеринг текста при компактном размере

Размер параметров Ovis-Image составляет 2B+7B. По сравнению с более крупными моделями, такими как Qwen-Image (7B+20B), Ovis-Image достигает сопоставимой или даже лучшей производительности в задачах рендеринга текста. На бенчмарке CVTG-2K точность рендеринга текста Ovis-Image (среднее WA) достигла 0.9200, что значительно выше, чем 0.8288 у Qwen-Image и 0.8569 у GPT4o.

Высокая точность вывода для сценариев с большим количеством текста

Модель отлично справляется со сценариями, требующими точного выравнивания текста и изображения:

Дизайн плакатов и баннеров
Логотипы и фирменная графика
Макеты пользовательского интерфейса
Инфографика

Ovis-Image генерирует чёткий, читаемый текст с правильной орфографией и семантической согласованностью при различных шрифтах, размерах и соотношениях сторон.

Удобство развёртывания

Благодаря размеру 7B параметров и оптимизированной архитектуре, Ovis-Image:

Работает на одном высокопроизводительном GPU
Поддерживает интерактивное использование с низкой задержкой
Подходит для производственных сценариев, требующих рендеринга текста без развёртывания моделей с десятками миллиардов параметров

Производительность

Бенчмарк рендеринга текста CVTG-2K

Модель	Параметры	WA (сред.)	NED↑	CLIPScore↑
GPT4o	-	0.8569	0.9478	0.7982
Qwen-Image	7B+20B	0.8288	0.9116	0.8017
TextCrafter	11B+12B	0.7370	0.8679	0.7868
Ovis-Image	2B+7B	0.9200	0.9695	0.8368

LongText-Bench — рендеринг длинного текста

Модель	Параметры	Английский	Китайский
GPT4o	-	0.956	0.619
Qwen-Image	7B+20B	0.943	0.946
Ovis-Image	2B+7B	0.922	0.964

В рендеринге длинного китайского текста Ovis-Image превзошла все протестированные модели с результатом 0.964.

Общая генерация изображений

Помимо рендеринга текста, Ovis-Image показывает стабильные результаты на общих бенчмарках преобразования текста в изображение, таких как DPG-Bench и GenEval:

DPG-Bench Overall: 86.59 (Qwen-Image: 88.32)
GenEval Overall: 0.84 (наравне с GPT4o)
OneIG-EN Overall: 0.530 (близко к 0.539 у Qwen-Image)

Техническая информация

Ovis-Image построена на базе Ovis-U1 и включает элементы дизайна FLUX. Модель протестирована на Python 3.10, Torch 2.6.0 и Transformers 4.57.1.

Команда разработчиков также выпустила специальную ветку diffusers для удобного внедрения.

Как попробовать

Пользователи могут опробовать Ovis-Image следующими способами:

Онлайн-демо: Попробовать модель непосредственно на Hugging Face Space
Локальное развёртывание: Запустить локальный вывод через PyTorch или библиотеку Diffusers

Ссылки

Статья: https://arxiv.org/abs/2511.22982
Модель: https://huggingface.co/AIDC-AI/Ovis-Image-7B
Онлайн-демо: https://huggingface.co/spaces/AIDC-AI/Ovis-Image-7B
GitHub: https://github.com/AIDC-AI/Ovis-Image