阿里巴巴 AIDC-AI 发布 Ovis-Image - 7B参数文本渲染优化的图像生成模型

2025年11月29日，阿里巴巴 AIDC-AI 团队发布了 Ovis-Image，这是一个基于 Ovis-U1 开发的 7B 参数文生图模型。该模型专门针对高质量文本渲染进行了优化，能够在计算资源有限的情况下高效运行。

模型特性

紧凑参数规模下的文本渲染能力

Ovis-Image 的参数规模为 2B+7B，相比 Qwen-Image（7B+20B）等更大规模的模型，Ovis-Image 在文本渲染任务上达到了可比甚至更优的表现。在 CVTG-2K 基准测试中，Ovis-Image 的文本渲染准确率（WA average）达到了 0.9200，明显高于 Qwen-Image 的 0.8288 和 GPT4o 的 0.8569。

文本密集型场景的高保真输出

模型在需要精确文本-图像对齐的场景中表现优异，包括：

海报和横幅设计
Logo 和品牌图形
UI 界面原型
信息图表

Ovis-Image 能够在不同字体、大小和宽高比的情况下，生成清晰可读、拼写正确且语义一致的文本。

部署友好

凭借 7B 的参数规模和精简的架构，Ovis-Image：

可在单张高端 GPU 上运行
支持低延迟的交互式使用
适合需要文本渲染但无法部署数十亿参数模型的生产场景

性能表现

CVTG-2K 文本渲染基准

| 模型 | 参数量 | WA (平均) | NED↑ | CLIPScore↑ | |

--|

| | GPT4o | - | 0.8569 | 0.9478 | 0.7982 | | Qwen-Image | 7B+20B | 0.8288 | 0.9116 | 0.8017 | | TextCrafter | 11B+12B | 0.7370 | 0.8679 | 0.7868 | | Ovis-Image | 2B+7B | 0.9200 | 0.9695 | 0.8368 |

LongText-Bench 长文本渲染

| 模型 | 参数量 | 英文 | 中文 | |

--|

| | GPT4o | - | 0.956 | 0.619 | | Qwen-Image | 7B+20B | 0.943 | 0.946 | | Ovis-Image | 2B+7B | 0.922 | 0.964 |

在中文长文本渲染方面，Ovis-Image 以 0.964 的分数超越了所有测试模型。

通用图像生成能力

除了文本渲染，Ovis-Image 在 DPG-Bench、GenEval 等通用文生图基准上也保持了稳定的表现：

DPG-Bench Overall: 86.59（Qwen-Image: 88.32）
GenEval Overall: 0.84（与 GPT4o 持平）
OneIG-EN Overall: 0.530（接近 Qwen-Image 的 0.539）

技术背景

Ovis-Image 建立在 Ovis-U1 的基础上，并借鉴了 FLUX 的部分设计。模型使用 Python 3.10、Torch 2.6.0 和 Transformers 4.57.1 进行了测试。

开发团队还发布了专门的 diffusers 分支，方便用户快速上手使用。

试用方式

用户可以通过以下方式体验 Ovis-Image：

在线 Demo: 在 Hugging Face Space 上直接试用模型效果
本地部署: 通过 PyTorch 或 Diffusers 库进行本地推理