오픈소스 이미지 생성의 새 지평: CogView4 정식 출시
지푸AI팀(THUDM)은 중국어 프롬프트 네이티브 지원 및 한자 생성이 가능한 오픈소스 확산 트랜스포머(DiT) 모델 CogView4를 공식 출시했습니다. DPG-Bench 벤치마크에서 85.13점의 종합 점수로 1위를 기록하며 뛰어난 이미지 생성 능력을 입증했습니다.
주요 기능 하이라이트
이중언어 생성 기능
- 업그레이드된 GLM-4 텍스트 인코더 적용 (중영 이중언어 지원)
- 백만 개 이상의 중영 이중언어 이미지-텍스트 쌍으로 학습
- 한자 생성 정확도 테스트 F1 점수 61.68% 달성 (동종 모델 대비 우수)
지능형 텍스트 처리
- 동적 텍스트 길이 지원 (최대 1024 토큰)
- 고정 길이 방식 대비 50% 계산량 절감
- 학습 효율 최대 30% 개선
유연한 해상도 지원
- 512px~2048px 자유로운 출력 크기 설정
- 혼합 해상도 학습 방식으로 다양한 시나리오 대응
- SNS용 비율 최적화 (9:16, 1:1, 4:3 등)
기술적 우위
혁신적인 ‘릴레이 디퓨전’ 프레임워크 채택:
- 기본 생성 단계: 저해상도 이미지 개요 신속 구성
- 초고해상도 단계: flow-matching 기술로 디테일 개선
- 동적 노이즈 계획: 생성 속도-품질 밸런스 최적화
벤치마크 성적:
- DPG-Bench 종합 85.13점 (SDXL 74.65, DALL-E 3 83.50 대비 우수)
- T2I-CompBench 복잡 장면 생성 0.3869점
- 중국어 문자 생성 F1 값 61.68% (동종 대비 114% 향상)
하드웨어 최적화
다양한 장비에 맞춘 3단계 최적화:
- 기본 모드: RTX 3090으로 512x512 생성 가능
- 메모리 최적화: CPU 오프로딩으로 VRAM 사용량 13GB까지 감소
- 4bit 양자화: 텍스트 인코더 압축으로 추론 속도 향상
사용 방법
일반 사용자는 HuggingFace Spaces 플랫폼에서 온라인 데모 체험 가능. 개발자는 모델 다운로드를 통해 전체 코드베이스 이용할 수 있습니다. 주요 API 기능:
- 중영 혼합 프롬프트 입력 지원
- 사용자 정의 출력 크기 설정
- 배치 생성 기능
관련 자료
지푸팀은 향후 3개월 내 ControlNet 제어 모듈, ComfyUI 시각화 워크플로 지원, 모델 미세조정 툴킷을 순차 출시할 예정이며 일반 사용자의 접근성을 더욱 개선할 계획이라고 밝혔습니다.