Alibaba AIDC-AI выпускает Ovis-Image — модель генерации изображений 7B, оптимизированную для рендеринга текста

29 ноября 2025 года команда AIDC-AI от Alibaba выпустила Ovis-Image — модель преобразования текста в изображение с 7B параметрами, разработанную на базе Ovis-U1. Модель специально оптимизирована для высококачественного рендеринга текста и может эффективно работать при ограниченных вычислительных ресурсах.
Особенности модели
Рендеринг текста при компактном размере
Размер параметров Ovis-Image составляет 2B+7B. По сравнению с более крупными моделями, такими как Qwen-Image (7B+20B), Ovis-Image достигает сопоставимой или даже лучшей производительности в задачах рендеринга текста. На бенчмарке CVTG-2K точность рендеринга текста Ovis-Image (среднее WA) достигла 0.9200, что значительно выше, чем 0.8288 у Qwen-Image и 0.8569 у GPT4o.
Высокая точность вывода для сценариев с большим количеством текста
Модель отлично справляется со сценариями, требующими точного выравнивания текста и изображения:
- Дизайн плакатов и баннеров
- Логотипы и фирменная графика
- Макеты пользовательского интерфейса
- Инфографика
Ovis-Image генерирует чёткий, читаемый текст с правильной орфографией и семантической согласованностью при различных шрифтах, размерах и соотношениях сторон.
Удобство развёртывания
Благодаря размеру 7B параметров и оптимизированной архитектуре, Ovis-Image:
- Работает на одном высокопроизводительном GPU
- Поддерживает интерактивное использование с низкой задержкой
- Подходит для производственных сценариев, требующих рендеринга текста без развёртывания моделей с десятками миллиардов параметров
Производительность
Бенчмарк рендеринга текста CVTG-2K
| Модель | Параметры | WA (сред.) | NED↑ | CLIPScore↑ |
|---|---|---|---|---|
| GPT4o | - | 0.8569 | 0.9478 | 0.7982 |
| Qwen-Image | 7B+20B | 0.8288 | 0.9116 | 0.8017 |
| TextCrafter | 11B+12B | 0.7370 | 0.8679 | 0.7868 |
| Ovis-Image | 2B+7B | 0.9200 | 0.9695 | 0.8368 |
LongText-Bench — рендеринг длинного текста
| Модель | Параметры | Английский | Китайский |
|---|---|---|---|
| GPT4o | - | 0.956 | 0.619 |
| Qwen-Image | 7B+20B | 0.943 | 0.946 |
| Ovis-Image | 2B+7B | 0.922 | 0.964 |
В рендеринге длинного китайского текста Ovis-Image превзошла все протестированные модели с результатом 0.964.
Общая генерация изображений
Помимо рендеринга текста, Ovis-Image показывает стабильные результаты на общих бенчмарках преобразования текста в изображение, таких как DPG-Bench и GenEval:
- DPG-Bench Overall: 86.59 (Qwen-Image: 88.32)
- GenEval Overall: 0.84 (наравне с GPT4o)
- OneIG-EN Overall: 0.530 (близко к 0.539 у Qwen-Image)
Техническая информация
Ovis-Image построена на базе Ovis-U1 и включает элементы дизайна FLUX. Модель протестирована на Python 3.10, Torch 2.6.0 и Transformers 4.57.1.
Команда разработчиков также выпустила специальную ветку diffusers для удобного внедрения.
Как попробовать
Пользователи могут опробовать Ovis-Image следующими способами:
- Онлайн-демо: Попробовать модель непосредственно на Hugging Face Space
- Локальное развёртывание: Запустить локальный вывод через PyTorch или библиотеку Diffusers
Ссылки
- Статья: https://arxiv.org/abs/2511.22982
- Модель: https://huggingface.co/AIDC-AI/Ovis-Image-7B
- Онлайн-демо: https://huggingface.co/spaces/AIDC-AI/Ovis-Image-7B
- GitHub: https://github.com/AIDC-AI/Ovis-Image