ComfyUI에서 Qwen-Image 네이티브 지원

Qwen-Image는 200억 매개변수의 MMDiT(다중모달 확산 트랜스포머) 이미지 생성 모델로, 복잡한 텍스트 렌더링과 세밀한 편집에 초점을 맞춥니다. Apache-2.0 라이선스로 공개되었으며, 최근 ComfyUI에서 네이티브 지원이 추가되어 템플릿을 통해 바로 체험할 수 있습니다.

관련 링크

모델 하이라이트

프로젝트 페이지 정보에 따르면, 본 모델은 텍스트 중심 장면과 편집 일관성에서 강점을 보이며, 생성·이해 전반의 기능을 제공합니다.

복잡한 텍스트 렌더링: 한중영 등 다국어 텍스트에서 글꼴 디테일과 레이아웃 일관성을 유지; 제목·슬로건·레이아웃 정보가 많은 이미지에 적합
정밀 편집: 스타일 전환, 객체 삽입/제거, 디테일 강화, 이미지 내 텍스트 편집, 인물 포즈 조정 등
범용 생성 능력: 포토리얼리즘부터 인상주의, 애니메이션, 미니멀 디자인까지 다양한 스타일에 자연스럽게 적응
이미지 이해 과제: 객체 탐지, 의미론적 분할, 깊이/엣지(Canny) 추정, 새로운 시점 합성, 초해상도 등
에코시스템·확장성: 다양한 LoRA(예: MajicBeauty) 지원 소식과 다중 GPU 추론/대기열 관리 예제가 제공되어 확장 및 고동시성 환경에 유리

ComfyUI에서 제공되는 버전

Qwen-Image_bf16 (≈ 40.9 GB)
Qwen-Image_fp8 (≈ 20.4 GB)
비공식 증류 버전(더 적은 단계로 생성)

모델 리소스는 다음에서 확인할 수 있습니다: Hugging Face - Comfy-Org/Qwen-Image_ComfyUI ｜ ModelScope - Comfy-Org/Qwen-Image_ComfyUI

성능

ComfyUI Wiki가 공식 문서를 준비하며 측정한 데이터로, RTX 4090D 24GB 환경에서의 결과입니다.

Qwen-Image_fp8

VRAM: 86%
생성 시간: 첫 실행 94초, 두 번째 71초

Qwen-Image_bf16

VRAM: 96%
생성 시간: 첫 실행 295초, 두 번째 131초

출처 및 추가 자료

프로젝트 페이지(특성, 뉴스, 배포): Qwen-Image GitHub
기술 보고서(arXiv): Qwen-Image Technical Report
모델 리소스(커뮤니티 미러): Comfy-Org/Qwen-Image_ComfyUI ｜ ModelScope - Comfy-Org/Qwen-Image_ComfyUI
참고 읽을거리(튜토리얼): ComfyUI 문서 · Qwen-Image 네이티브 워크플로

모델 하이라이트

ComfyUI에서 제공되는 버전

성능

출처 및 추가 자료

댓글