Skip to content
Follow me on X
ComfyUI Wiki
새소식Alibaba AIDC-AI, Ovis-Image 출시 - 텍스트 렌더링에 최적화된 7B 이미지 생성 모델

Alibaba AIDC-AI, Ovis-Image 출시 - 텍스트 렌더링에 최적화된 7B 이미지 생성 모델

Ovis-Image

2025년 11월 29일, Alibaba AIDC-AI 팀은 Ovis-U1을 기반으로 개발된 7B 파라미터 텍스트-이미지 모델 Ovis-Image를 출시했습니다. 이 모델은 고품질 텍스트 렌더링에 특화되어 최적화되었으며, 제한된 컴퓨팅 리소스에서도 효율적으로 실행됩니다.

모델 특징

컴팩트한 규모에서의 텍스트 렌더링 능력

Ovis-Image의 파라미터 크기는 2B+7B입니다. Qwen-Image(7B+20B)와 같은 대규모 모델과 비교하여, Ovis-Image는 텍스트 렌더링 작업에서 동등하거나 더 나은 성능을 달성했습니다. CVTG-2K 벤치마크에서 Ovis-Image의 텍스트 렌더링 정확도(WA 평균)는 0.9200에 도달하여 Qwen-Image의 0.8288과 GPT4o의 0.8569를 크게 상회했습니다.

텍스트 집약적 시나리오를 위한 고충실도 출력

이 모델은 정확한 텍스트-이미지 정렬이 필요한 시나리오에서 뛰어난 성능을 발휘합니다:

  • 포스터 및 배너 디자인
  • 로고 및 브랜드 그래픽
  • UI 목업
  • 인포그래픽

Ovis-Image는 다양한 폰트, 크기, 종횡비에서 읽기 쉽고, 맞춤법이 정확하며, 의미적으로 일관된 텍스트를 생성합니다.

배포 용이성

7B 파라미터 크기와 간소화된 아키텍처를 통해 Ovis-Image는:

  • 단일 고성능 GPU에서 실행
  • 저지연 대화형 사용 지원
  • 수백억 파라미터 모델을 배포하지 않고 텍스트 렌더링이 필요한 프로덕션 시나리오에 적합

성능

CVTG-2K 텍스트 렌더링 벤치마크

모델파라미터WA (평균)NED↑CLIPScore↑
GPT4o-0.85690.94780.7982
Qwen-Image7B+20B0.82880.91160.8017
TextCrafter11B+12B0.73700.86790.7868
Ovis-Image2B+7B0.92000.96950.8368

LongText-Bench 장문 텍스트 렌더링

모델파라미터영어중국어
GPT4o-0.9560.619
Qwen-Image7B+20B0.9430.946
Ovis-Image2B+7B0.9220.964

중국어 장문 텍스트 렌더링에서 Ovis-Image는 0.964점으로 테스트된 모든 모델을 앞섰습니다.

일반 이미지 생성 능력

텍스트 렌더링 외에도 Ovis-Image는 DPG-Bench, GenEval 등 일반 텍스트-이미지 벤치마크에서 안정적인 성능을 유지합니다:

  • DPG-Bench Overall: 86.59 (Qwen-Image: 88.32)
  • GenEval Overall: 0.84 (GPT4o와 동등)
  • OneIG-EN Overall: 0.530 (Qwen-Image의 0.539에 근접)

기술적 배경

Ovis-Image는 Ovis-U1을 기반으로 구축되었으며 FLUX의 설계 요소를 통합했습니다. 모델은 Python 3.10, Torch 2.6.0, Transformers 4.57.1로 테스트되었습니다.

개발팀은 쉬운 도입을 위한 전용 diffusers 브랜치도 공개했습니다.

체험 방법

사용자는 다음 방법으로 Ovis-Image를 체험할 수 있습니다:

  • 온라인 데모: Hugging Face Space에서 모델을 직접 체험
  • 로컬 배포: PyTorch 또는 Diffusers 라이브러리를 통한 로컬 추론 실행

관련 링크