阿里巴巴 AIDC-AI 发布 Ovis-Image - 7B参数文本渲染优化的图像生成模型

2025年11月29日,阿里巴巴 AIDC-AI 团队发布了 Ovis-Image,这是一个基于 Ovis-U1 开发的 7B 参数文生图模型。该模型专门针对高质量文本渲染进行了优化,能够在计算资源有限的情况下高效运行。
模型特性
紧凑参数规模下的文本渲染能力
Ovis-Image 的参数规模为 2B+7B,相比 Qwen-Image(7B+20B)等更大规模的模型,Ovis-Image 在文本渲染任务上达到了可比甚至更优的表现。在 CVTG-2K 基准测试中,Ovis-Image 的文本渲染准确率(WA average)达到了 0.9200,明显高于 Qwen-Image 的 0.8288 和 GPT4o 的 0.8569。
文本密集型场景的高保真输出
模型在需要精确文本-图像对齐的场景中表现优异,包括:
- 海报和横幅设计
- Logo 和品牌图形
- UI 界面原型
- 信息图表
Ovis-Image 能够在不同字体、大小和宽高比的情况下,生成清晰可读、拼写正确且语义一致的文本。
部署友好
凭借 7B 的参数规模和精简的架构,Ovis-Image:
- 可在单张高端 GPU 上运行
- 支持低延迟的交互式使用
- 适合需要文本渲染但无法部署数十亿参数模型的生产场景
性能表现
CVTG-2K 文本渲染基准
| 模型 | 参数量 | WA (平均) | NED↑ | CLIPScore↑ |
|---|---|---|---|---|
| GPT4o | - | 0.8569 | 0.9478 | 0.7982 |
| Qwen-Image | 7B+20B | 0.8288 | 0.9116 | 0.8017 |
| TextCrafter | 11B+12B | 0.7370 | 0.8679 | 0.7868 |
| Ovis-Image | 2B+7B | 0.9200 | 0.9695 | 0.8368 |
LongText-Bench 长文本渲染
| 模型 | 参数量 | 英文 | 中文 |
|---|---|---|---|
| GPT4o | - | 0.956 | 0.619 |
| Qwen-Image | 7B+20B | 0.943 | 0.946 |
| Ovis-Image | 2B+7B | 0.922 | 0.964 |
在中文长文本渲染方面,Ovis-Image 以 0.964 的分数超越了所有测试模型。
通用图像生成能力
除了文本渲染,Ovis-Image 在 DPG-Bench、GenEval 等通用文生图基准上也保持了稳定的表现:
- DPG-Bench Overall: 86.59(Qwen-Image: 88.32)
- GenEval Overall: 0.84(与 GPT4o 持平)
- OneIG-EN Overall: 0.530(接近 Qwen-Image 的 0.539)
技术背景
Ovis-Image 建立在 Ovis-U1 的基础上,并借鉴了 FLUX 的部分设计。模型使用 Python 3.10、Torch 2.6.0 和 Transformers 4.57.1 进行了测试。
开发团队还发布了专门的 diffusers 分支,方便用户快速上手使用。
试用方式
用户可以通过以下方式体验 Ovis-Image:
- 在线 Demo: 在 Hugging Face Space 上直接试用模型效果
- 本地部署: 通过 PyTorch 或 Diffusers 库进行本地推理
相关链接
- 论文:https://arxiv.org/abs/2511.22982
- 模型:https://huggingface.co/AIDC-AI/Ovis-Image-7B
- 在线 Demo:https://huggingface.co/spaces/AIDC-AI/Ovis-Image-7B
- GitHub:https://github.com/AIDC-AI/Ovis-Image