Qwen-Image-Layered 출시 - 레이어 기반 편집을 지원하는 이미지 생성 모델
2025. 12. 19.
Qwen-Image-Layered ComfyUI 워크플로우 사용 가이드
Qwen-Image-Layered는 Alibaba의 Qwen 팀이 개발한 이미지 레이어 편집 생성 모델로, Qwen-Image 모델을 기반으로 하며 Apache 2.0 오픈소스 라이선스 하에 공개되었습니다. 이 모델은 이미지를 여러 RGBA 레이어로 분해할 수 있으며, 각 레이어는 이미지의 다른 콘텐츠에 영향을 주지 않고 독립적으로 편집할 수 있습니다. 이러한 물리적 격리 방식으로 이미지 편집이 더 정확하고 일관성 있게 됩니다.
기존 이미지 편집 방법과 달리, Qwen-Image-Layered는 이미지를 여러 독립적인 RGBA 레이어로 분해하여 진정한 레이어 편집 경험을 제공합니다. 각 레이어에는 완전한 색상 정보와 투명도 정보가 포함되어 있어 레이어 간 합성이 더 자연스럽습니다. 이 설계를 통해 사용자는 편집 작업이 다른 영역에 영향을 미칠 걱정 없이 이미지의 다른 부분을 정확하게 제어할 수 있습니다.
핵심 기능:
- 레이어 분해 기능: 이미지를 여러 독립적인 RGBA 레이어로 분해할 수 있으며, 각 레이어에는 전경 객체, 배경 요소, 텍스트 등의 특정 의미적 또는 구조적 구성 요소가 포함됩니다
- 독립적인 레이어 편집: 각 레이어에 대해 색상 변경, 콘텐츠 교체, 텍스트 수정, 객체 삭제, 크기 조정 및 위치 변경 등의 작업을 지원하며, 모든 작업은 대상 레이어에만 영향을 줍니다
- 유연한 레이어 수: 레이어 수에 고정된 제한이 없으며, 필요에 따라 이미지를 다양한 수의 레이어(예: 3, 4, 8개 이상)로 분해할 수 있습니다
- 재귀적 분해: 재귀적 분해를 지원하며, 모든 레이어를 더 많은 하위 레이어로 추가 분해할 수 있어 복잡한 편집 요구사항에 더 큰 유연성을 제공합니다
성능 참고사항: 이 모델은 생성 속도가 상대적으로 느리고 실행 시간이 깁니다. RTX Pro 6000 96GB VRAM에서 최대 메모리 사용량이 45GB에 도달할 수 있으며, 1024px 생성에는 120초가 소요됩니다. 일부 RTX 4090 사용자의 피드백에 따르면, 이 워크플로우는 사용 가능한 모든 VRAM을 거의 사용합니다. VRAM이 제한적인 사용자는 메모리 사용량을 줄이기 위해 FP8 버전을 사용하는 것이 좋습니다.
Qwen-Image-Layered ComfyUI 네이티브 워크플로우 가이드
Qwen-Image-Layered는 ComfyUI에서 네이티브 지원을 받으며, 사용자가 이 모델을 직접 사용하여 이미지 레이어 편집을 수행할 수 있습니다. 추가 사용자 정의 노드를 설치할 필요가 없으며, ComfyUI를 최신 버전으로 업데이트하기만 하면 됩니다.
1. 워크플로우 파일
ComfyUI를 업데이트한 후 템플릿에서 워크플로우 파일을 찾거나 아래 워크플로우를 ComfyUI로 드래그하여 로드할 수 있습니다
2. 모델 다운로드
모든 모델은 Huggingface 또는 ModelScope에서 찾을 수 있습니다
text_encoders
diffusion_models
vae
모델 저장 위치
📂 ComfyUI/
├── 📂 models/
│ ├── 📂 text_encoders/
│ │ └── qwen_2.5_vl_7b_fp8_scaled.safetensors
│ ├── 📂 diffusion_models/
│ │ └── qwen_image_layered_bf16.safetensors
│ └── 📂 vae/
│ └── qwen_image_layered_vae.safetensors3. FP8 버전
기본적으로 더 높은 VRAM이 필요한 bf16 버전을 사용합니다. VRAM이 제한적인 경우 fp8 버전을 사용하여 메모리 사용량을 줄일 수 있습니다:
fp8 버전을 사용할 때는 워크플로우 내 Subgraph 내의 Load Diffusion model 노드에서 모델 경로를 업데이트하여 fp8 버전 모델 파일을 가리키도록 해야 합니다.
fp8 버전은 좋은 생성 품질을 유지하면서 VRAM 사용량을 크게 줄일 수 있어 VRAM이 제한적인 사용자에게 적합합니다.
4. 워크플로우 설정
샘플러 설정
이 모델은 생성 속도가 상대적으로 느리고 실행 시간이 깁니다. 원본 샘플링 설정은 50단계, CFG 값 4.0을 권장하며, 이는 생성 시간을 최소 2배로 늘립니다. 더 빠른 생성이 필요한 경우 단계 수를 줄일 수 있지만 생성 품질에 영향을 줄 수 있습니다. 최상의 생성 결과를 얻기 위해 처음 사용할 때는 기본 설정을 유지하는 것이 좋습니다.
입력 크기
입력 크기의 경우 640픽셀이 권장값이며, 생성 품질과 속도 사이의 좋은 균형을 제공합니다. 고해상도 출력의 경우 1024픽셀을 사용할 수 있지만, 더 큰 크기는 생성 시간을 크게 늘리고 더 많은 VRAM도 소비한다는 점에 유의하세요. 하드웨어 구성과 실제 요구사항에 따라 적절한 크기를 선택하는 것이 좋습니다.
프롬프트(선택사항)
텍스트 프롬프트는 입력 이미지의 전체 콘텐츠를 설명하기 위한 것으로, 부분적으로 가려진 요소(예: 전경 객체 뒤에 숨겨진 텍스트를 지정할 수 있음)를 포함합니다. 프롬프트는 개별 레이어의 의미적 콘텐츠를 명시적으로 제어하도록 설계된 것이 아니라 모델이 이미지의 전체 구조를 이해하는 데 도움이 되도록 설계되었습니다.
Qwen-Image-Layered GGUF 버전 워크플로우
GGUF 버전 워크플로우는 업데이트 대기 중입니다. 잠시만 기다려 주세요.