Skip to content
Follow me on X
ComfyUI Wiki
新闻阿里巴巴 AIDC-AI 发布 Ovis-Image - 7B参数文本渲染优化的图像生成模型

阿里巴巴 AIDC-AI 发布 Ovis-Image - 7B参数文本渲染优化的图像生成模型

Ovis-Image

2025年11月29日,阿里巴巴 AIDC-AI 团队发布了 Ovis-Image,这是一个基于 Ovis-U1 开发的 7B 参数文生图模型。该模型专门针对高质量文本渲染进行了优化,能够在计算资源有限的情况下高效运行。

模型特性

紧凑参数规模下的文本渲染能力

Ovis-Image 的参数规模为 2B+7B,相比 Qwen-Image(7B+20B)等更大规模的模型,Ovis-Image 在文本渲染任务上达到了可比甚至更优的表现。在 CVTG-2K 基准测试中,Ovis-Image 的文本渲染准确率(WA average)达到了 0.9200,明显高于 Qwen-Image 的 0.8288 和 GPT4o 的 0.8569。

文本密集型场景的高保真输出

模型在需要精确文本-图像对齐的场景中表现优异,包括:

  • 海报和横幅设计
  • Logo 和品牌图形
  • UI 界面原型
  • 信息图表

Ovis-Image 能够在不同字体、大小和宽高比的情况下,生成清晰可读、拼写正确且语义一致的文本。

部署友好

凭借 7B 的参数规模和精简的架构,Ovis-Image:

  • 可在单张高端 GPU 上运行
  • 支持低延迟的交互式使用
  • 适合需要文本渲染但无法部署数十亿参数模型的生产场景

性能表现

CVTG-2K 文本渲染基准

模型参数量WA (平均)NED↑CLIPScore↑
GPT4o-0.85690.94780.7982
Qwen-Image7B+20B0.82880.91160.8017
TextCrafter11B+12B0.73700.86790.7868
Ovis-Image2B+7B0.92000.96950.8368

LongText-Bench 长文本渲染

模型参数量英文中文
GPT4o-0.9560.619
Qwen-Image7B+20B0.9430.946
Ovis-Image2B+7B0.9220.964

在中文长文本渲染方面,Ovis-Image 以 0.964 的分数超越了所有测试模型。

通用图像生成能力

除了文本渲染,Ovis-Image 在 DPG-Bench、GenEval 等通用文生图基准上也保持了稳定的表现:

  • DPG-Bench Overall: 86.59(Qwen-Image: 88.32)
  • GenEval Overall: 0.84(与 GPT4o 持平)
  • OneIG-EN Overall: 0.530(接近 Qwen-Image 的 0.539)

技术背景

Ovis-Image 建立在 Ovis-U1 的基础上,并借鉴了 FLUX 的部分设计。模型使用 Python 3.10、Torch 2.6.0 和 Transformers 4.57.1 进行了测试。

开发团队还发布了专门的 diffusers 分支,方便用户快速上手使用。

试用方式

用户可以通过以下方式体验 Ovis-Image:

  • 在线 Demo: 在 Hugging Face Space 上直接试用模型效果
  • 本地部署: 通过 PyTorch 或 Diffusers 库进行本地推理

相关链接