알리바바 통이 랩, Z-Image-Turbo 출시 - 6B 파라미터의 효율적인 이미지 생성 모델

2025년 11월 27일, 알리바바 통이 랩(Tongyi Lab)이 차세대 고효율 이미지 생성 모델인 Z-Image-Turbo를 공식 출시했습니다. 단 6B 파라미터로 20B 이상의 파라미터를 가진 비공개 플래그십 모델과 비슷한 성능을 달성하며, 특히 고충실도의 사실적인 인물 초상화 생성에 뛰어납니다.

주요 특징

효율적인 파라미터 아키텍처

Z-Image-Turbo는 확장 가능한 단일 스트림 DiT(S3-DiT) 아키텍처를 사용하여 텍스트, 시각적 의미 토큰, 이미지 VAE 토큰을 시퀀스 수준에서 통합 입력 스트림으로 연결하여 파라미터 효율성을 극대화합니다. 이러한 설계를 통해 모델은 고품질 출력을 유지하면서 컴퓨팅 리소스 요구 사항을 크게 줄일 수 있습니다.

일반 소비자용 GPU 지원

Z-Image-Turbo의 가장 매력적인 특징 중 하나입니다:

VRAM 사용량을 16GB 이하로 엄격하게 제어
RTX 4090에서 1024×1024 해상도 이미지를 단 2.3초만에 생성
NVIDIA RTX Pro 6000 Blackwell에서 2K 이미지를 단 4.8초만에 생성
단 8단계 샘플링으로 고품질 이미지 생성
RTX 3060 6GB 버전에서도 실행 가능

우수한 텍스트 렌더링

Z-Image-Turbo는 중국어와 영어 텍스트 렌더링에서 뛰어난 성능을 보입니다:

복잡한 중국어 및 영어 텍스트를 정확하게 렌더링
얼굴의 사실성과 시각적 미학 유지
최고 수준의 비공개 모델과 비슷한 결과 달성

사실적인 인물 초상화

이 모델은 다음과 같은 생성에 특히 뛰어납니다:

고충실도 캐릭터 초상화
자연스러운 피부 질감과 조명 효과
영화 같은 조명과 구도
다양한 스타일의 인물 사진

ComfyUI에서 사용하기

Z-Image-Turbo는 이제 ComfyUI에서 지원됩니다. 다음이 필요합니다:

ComfyUI를 최신 버전으로 업데이트
필요한 모델 파일 다운로드
워크플로우(workflow) 가져오기로 사용 시작

모델 파일

다음 모델 파일을 다운로드하여 해당 디렉토리에 배치해야 합니다:

텍스트 인코더(text_encoders)

qwen_3_4b.safetensors

확산 모델(diffusion_models)

z_image_turbo_bf16.safetensors

VAE

ae.safetensors

파일 저장 위치

📂 ComfyUI/
├── 📂 models/
│   ├── 📂 text_encoders/
│   │      └── qwen_3_4b.safetensors
│   ├── 📂 diffusion_models/
│   │      └── z_image_turbo_bf16.safetensors
│   └── 📂 vae/
│          └── ae.safetensors

ComfyUI 워크플로우

다음 링크에서 공식 워크플로우(workflow) 템플릿을 다운로드할 수 있습니다:

Z-Image-Turbo 공식 워크플로우

향후 계획

연구팀은 전체 비증류 기본 모델을 출시할 계획이며, 이를 통해 커뮤니티 주도의 파인튜닝, 커스텀 워크플로우 및 더 넓은 오픈소스 생태계 개발이 가능해질 것입니다.