Alibaba AIDC-AI, Ovis-Image 출시 - 텍스트 렌더링에 최적화된 7B 이미지 생성 모델

2025년 11월 29일, Alibaba AIDC-AI 팀은 Ovis-U1을 기반으로 개발된 7B 파라미터 텍스트-이미지 모델 Ovis-Image를 출시했습니다. 이 모델은 고품질 텍스트 렌더링에 특화되어 최적화되었으며, 제한된 컴퓨팅 리소스에서도 효율적으로 실행됩니다.
모델 특징
컴팩트한 규모에서의 텍스트 렌더링 능력
Ovis-Image의 파라미터 크기는 2B+7B입니다. Qwen-Image(7B+20B)와 같은 대규모 모델과 비교하여, Ovis-Image는 텍스트 렌더링 작업에서 동등하거나 더 나은 성능을 달성했습니다. CVTG-2K 벤치마크에서 Ovis-Image의 텍스트 렌더링 정확도(WA 평균)는 0.9200에 도달하여 Qwen-Image의 0.8288과 GPT4o의 0.8569를 크게 상회했습니다.
텍스트 집약적 시나리오를 위한 고충실도 출력
이 모델은 정확한 텍스트-이미지 정렬이 필요한 시나리오에서 뛰어난 성능을 발휘합니다:
- 포스터 및 배너 디자인
- 로고 및 브랜드 그래픽
- UI 목업
- 인포그래픽
Ovis-Image는 다양한 폰트, 크기, 종횡비에서 읽기 쉽고, 맞춤법이 정확하며, 의미적으로 일관된 텍스트를 생성합니다.
배포 용이성
7B 파라미터 크기와 간소화된 아키텍처를 통해 Ovis-Image는:
- 단일 고성능 GPU에서 실행
- 저지연 대화형 사용 지원
- 수백억 파라미터 모델을 배포하지 않고 텍스트 렌더링이 필요한 프로덕션 시나리오에 적합
성능
CVTG-2K 텍스트 렌더링 벤치마크
| 모델 | 파라미터 | WA (평균) | NED↑ | CLIPScore↑ |
|---|---|---|---|---|
| GPT4o | - | 0.8569 | 0.9478 | 0.7982 |
| Qwen-Image | 7B+20B | 0.8288 | 0.9116 | 0.8017 |
| TextCrafter | 11B+12B | 0.7370 | 0.8679 | 0.7868 |
| Ovis-Image | 2B+7B | 0.9200 | 0.9695 | 0.8368 |
LongText-Bench 장문 텍스트 렌더링
| 모델 | 파라미터 | 영어 | 중국어 |
|---|---|---|---|
| GPT4o | - | 0.956 | 0.619 |
| Qwen-Image | 7B+20B | 0.943 | 0.946 |
| Ovis-Image | 2B+7B | 0.922 | 0.964 |
중국어 장문 텍스트 렌더링에서 Ovis-Image는 0.964점으로 테스트된 모든 모델을 앞섰습니다.
일반 이미지 생성 능력
텍스트 렌더링 외에도 Ovis-Image는 DPG-Bench, GenEval 등 일반 텍스트-이미지 벤치마크에서 안정적인 성능을 유지합니다:
- DPG-Bench Overall: 86.59 (Qwen-Image: 88.32)
- GenEval Overall: 0.84 (GPT4o와 동등)
- OneIG-EN Overall: 0.530 (Qwen-Image의 0.539에 근접)
기술적 배경
Ovis-Image는 Ovis-U1을 기반으로 구축되었으며 FLUX의 설계 요소를 통합했습니다. 모델은 Python 3.10, Torch 2.6.0, Transformers 4.57.1로 테스트되었습니다.
개발팀은 쉬운 도입을 위한 전용 diffusers 브랜치도 공개했습니다.
체험 방법
사용자는 다음 방법으로 Ovis-Image를 체험할 수 있습니다:
- 온라인 데모: Hugging Face Space에서 모델을 직접 체험
- 로컬 배포: PyTorch 또는 Diffusers 라이브러리를 통한 로컬 추론 실행
관련 링크
- 논문: https://arxiv.org/abs/2511.22982
- 모델: https://huggingface.co/AIDC-AI/Ovis-Image-7B
- 온라인 데모: https://huggingface.co/spaces/AIDC-AI/Ovis-Image-7B
- GitHub: https://github.com/AIDC-AI/Ovis-Image