Skip to content
더 나은 ComfyUI 지식베이스 구축을 돕기 후원자 되기
새소식지푸AI팀(THUDM) CogView4 오픈소스 공개 - 중국어 네이티브 지원 DiT 텍스트-이미지 모델

오픈소스 이미지 생성의 새 지평: CogView4 정식 출시

CogView4 생성 결과 예시

지푸AI팀(THUDM)은 중국어 프롬프트 네이티브 지원 및 한자 생성이 가능한 오픈소스 확산 트랜스포머(DiT) 모델 CogView4를 공식 출시했습니다. DPG-Bench 벤치마크에서 85.13점의 종합 점수로 1위를 기록하며 뛰어난 이미지 생성 능력을 입증했습니다.

주요 기능 하이라이트

이중언어 생성 기능

  • 업그레이드된 GLM-4 텍스트 인코더 적용 (중영 이중언어 지원)
  • 백만 개 이상의 중영 이중언어 이미지-텍스트 쌍으로 학습
  • 한자 생성 정확도 테스트 F1 점수 61.68% 달성 (동종 모델 대비 우수)

지능형 텍스트 처리

  • 동적 텍스트 길이 지원 (최대 1024 토큰)
  • 고정 길이 방식 대비 50% 계산량 절감
  • 학습 효율 최대 30% 개선

유연한 해상도 지원

  • 512px~2048px 자유로운 출력 크기 설정
  • 혼합 해상도 학습 방식으로 다양한 시나리오 대응
  • SNS용 비율 최적화 (9:16, 1:1, 4:3 등)

기술적 우위

혁신적인 ‘릴레이 디퓨전’ 프레임워크 채택:

  1. 기본 생성 단계: 저해상도 이미지 개요 신속 구성
  2. 초고해상도 단계: flow-matching 기술로 디테일 개선
  3. 동적 노이즈 계획: 생성 속도-품질 밸런스 최적화

벤치마크 성적:

  • DPG-Bench 종합 85.13점 (SDXL 74.65, DALL-E 3 83.50 대비 우수)
  • T2I-CompBench 복잡 장면 생성 0.3869점
  • 중국어 문자 생성 F1 값 61.68% (동종 대비 114% 향상)

하드웨어 최적화

다양한 장비에 맞춘 3단계 최적화:

  • 기본 모드: RTX 3090으로 512x512 생성 가능
  • 메모리 최적화: CPU 오프로딩으로 VRAM 사용량 13GB까지 감소
  • 4bit 양자화: 텍스트 인코더 압축으로 추론 속도 향상

사용 방법

일반 사용자는 HuggingFace Spaces 플랫폼에서 온라인 데모 체험 가능. 개발자는 모델 다운로드를 통해 전체 코드베이스 이용할 수 있습니다. 주요 API 기능:

  • 중영 혼합 프롬프트 입력 지원
  • 사용자 정의 출력 크기 설정
  • 배치 생성 기능

관련 자료

지푸팀은 향후 3개월 내 ControlNet 제어 모듈, ComfyUI 시각화 워크플로 지원, 모델 미세조정 툴킷을 순차 출시할 예정이며 일반 사용자의 접근성을 더욱 개선할 계획이라고 밝혔습니다.