阿里巴巴 AIDC-AI 发布 Ovis-Image - 7B参数文本渲染优化的图像生成模型

news

阿里巴巴 AIDC-AI 团队发布 Ovis-Image,一个专注于高质量文本渲染的7B参数文生图模型,在多项文本渲染基准测试中表现出色,可在单张高端GPU上高效运行

Ovis-Image

2025年11月29日,阿里巴巴 AIDC-AI 团队发布了 Ovis-Image,这是一个基于 Ovis-U1 开发的 7B 参数文生图模型。该模型专门针对高质量文本渲染进行了优化,能够在计算资源有限的情况下高效运行。

模型特性

紧凑参数规模下的文本渲染能力

Ovis-Image 的参数规模为 2B+7B,相比 Qwen-Image(7B+20B)等更大规模的模型,Ovis-Image 在文本渲染任务上达到了可比甚至更优的表现。在 CVTG-2K 基准测试中,Ovis-Image 的文本渲染准确率(WA average)达到了 0.9200,明显高于 Qwen-Image 的 0.8288 和 GPT4o 的 0.8569。

文本密集型场景的高保真输出

模型在需要精确文本-图像对齐的场景中表现优异,包括:

  • 海报和横幅设计
  • Logo 和品牌图形
  • UI 界面原型
  • 信息图表

Ovis-Image 能够在不同字体、大小和宽高比的情况下,生成清晰可读、拼写正确且语义一致的文本。

部署友好

凭借 7B 的参数规模和精简的架构,Ovis-Image:

  • 可在单张高端 GPU 上运行
  • 支持低延迟的交互式使用
  • 适合需要文本渲染但无法部署数十亿参数模型的生产场景

性能表现

CVTG-2K 文本渲染基准

| 模型 | 参数量 | WA (平均) | NED↑ | CLIPScore↑ | |

|

--|

--|

|

| | GPT4o | - | 0.8569 | 0.9478 | 0.7982 | | Qwen-Image | 7B+20B | 0.8288 | 0.9116 | 0.8017 | | TextCrafter | 11B+12B | 0.7370 | 0.8679 | 0.7868 | | Ovis-Image | 2B+7B | 0.9200 | 0.9695 | 0.8368 |

LongText-Bench 长文本渲染

| 模型 | 参数量 | 英文 | 中文 | |

|

--|

|

| | GPT4o | - | 0.956 | 0.619 | | Qwen-Image | 7B+20B | 0.943 | 0.946 | | Ovis-Image | 2B+7B | 0.922 | 0.964 |

在中文长文本渲染方面,Ovis-Image 以 0.964 的分数超越了所有测试模型。

通用图像生成能力

除了文本渲染,Ovis-Image 在 DPG-Bench、GenEval 等通用文生图基准上也保持了稳定的表现:

  • DPG-Bench Overall: 86.59(Qwen-Image: 88.32)
  • GenEval Overall: 0.84(与 GPT4o 持平)
  • OneIG-EN Overall: 0.530(接近 Qwen-Image 的 0.539)

技术背景

Ovis-Image 建立在 Ovis-U1 的基础上,并借鉴了 FLUX 的部分设计。模型使用 Python 3.10、Torch 2.6.0 和 Transformers 4.57.1 进行了测试。

开发团队还发布了专门的 diffusers 分支,方便用户快速上手使用。

试用方式

用户可以通过以下方式体验 Ovis-Image:

  • 在线 Demo: 在 Hugging Face Space 上直接试用模型效果
  • 本地部署: 通过 PyTorch 或 Diffusers 库进行本地推理

相关链接

阿里巴巴 AIDC-AI 发布 Ovis-Image - 7B参数文本渲染优化的图像生成模型 | ComfyUI Wiki