Skip to content
Follow me on X
ComfyUI Wiki
НовостиAlibaba AIDC-AI выпускает Ovis-Image — модель генерации изображений 7B, оптимизированную для рендеринга текста

Alibaba AIDC-AI выпускает Ovis-Image — модель генерации изображений 7B, оптимизированную для рендеринга текста

Ovis-Image

29 ноября 2025 года команда AIDC-AI от Alibaba выпустила Ovis-Image — модель преобразования текста в изображение с 7B параметрами, разработанную на базе Ovis-U1. Модель специально оптимизирована для высококачественного рендеринга текста и может эффективно работать при ограниченных вычислительных ресурсах.

Особенности модели

Рендеринг текста при компактном размере

Размер параметров Ovis-Image составляет 2B+7B. По сравнению с более крупными моделями, такими как Qwen-Image (7B+20B), Ovis-Image достигает сопоставимой или даже лучшей производительности в задачах рендеринга текста. На бенчмарке CVTG-2K точность рендеринга текста Ovis-Image (среднее WA) достигла 0.9200, что значительно выше, чем 0.8288 у Qwen-Image и 0.8569 у GPT4o.

Высокая точность вывода для сценариев с большим количеством текста

Модель отлично справляется со сценариями, требующими точного выравнивания текста и изображения:

  • Дизайн плакатов и баннеров
  • Логотипы и фирменная графика
  • Макеты пользовательского интерфейса
  • Инфографика

Ovis-Image генерирует чёткий, читаемый текст с правильной орфографией и семантической согласованностью при различных шрифтах, размерах и соотношениях сторон.

Удобство развёртывания

Благодаря размеру 7B параметров и оптимизированной архитектуре, Ovis-Image:

  • Работает на одном высокопроизводительном GPU
  • Поддерживает интерактивное использование с низкой задержкой
  • Подходит для производственных сценариев, требующих рендеринга текста без развёртывания моделей с десятками миллиардов параметров

Производительность

Бенчмарк рендеринга текста CVTG-2K

МодельПараметрыWA (сред.)NED↑CLIPScore↑
GPT4o-0.85690.94780.7982
Qwen-Image7B+20B0.82880.91160.8017
TextCrafter11B+12B0.73700.86790.7868
Ovis-Image2B+7B0.92000.96950.8368

LongText-Bench — рендеринг длинного текста

МодельПараметрыАнглийскийКитайский
GPT4o-0.9560.619
Qwen-Image7B+20B0.9430.946
Ovis-Image2B+7B0.9220.964

В рендеринге длинного китайского текста Ovis-Image превзошла все протестированные модели с результатом 0.964.

Общая генерация изображений

Помимо рендеринга текста, Ovis-Image показывает стабильные результаты на общих бенчмарках преобразования текста в изображение, таких как DPG-Bench и GenEval:

  • DPG-Bench Overall: 86.59 (Qwen-Image: 88.32)
  • GenEval Overall: 0.84 (наравне с GPT4o)
  • OneIG-EN Overall: 0.530 (близко к 0.539 у Qwen-Image)

Техническая информация

Ovis-Image построена на базе Ovis-U1 и включает элементы дизайна FLUX. Модель протестирована на Python 3.10, Torch 2.6.0 и Transformers 4.57.1.

Команда разработчиков также выпустила специальную ветку diffusers для удобного внедрения.

Как попробовать

Пользователи могут опробовать Ovis-Image следующими способами:

  • Онлайн-демо: Попробовать модель непосредственно на Hugging Face Space
  • Локальное развёртывание: Запустить локальный вывод через PyTorch или библиотеку Diffusers

Ссылки