NVIDIA 오픈소스 Sana - 효율적인 4K 이미지 생성 AI 모델

NVIDIA는 최근 중요한 오픈소스 프로젝트인 Sana를 발표했습니다. 이 텍스트-이미지 생성 모델의 가장 큰 특징은 최대 4096×4096 해상도의 이미지를 효율적으로 생성할 수 있다는 것입니다. 더욱 놀라운 것은, 이 최적화된 모델이 16GB VRAM을 장착한 일반 노트북 GPU에서 실행될 수 있다는 점입니다.

핵심 특징

초고속 효율성: Sana-0.6B 모델은 1024×1024 해상도의 이미지를 1초도 안 되어 생성합니다.
경량 배포: 16GB VRAM을 장착한 노트북 GPU에서 실행 가능합니다.
고해상도: 최대 4K (4096×4096) 해상도의 이미지 생성을 지원합니다.
오픈소스 지원: ComfyUI의 공식 지원과 LoRA 훈련 도구가 포함되어 있습니다.

기술 혁신

Sana의 높은 성능은 다음과 같은 기술 혁신 덕분입니다:

딥 압축 오토인코더: 32배의 이미지 압축 비율을 달성하여 잠재 토큰의 수를 크게 줄였습니다.
선형 DiT: 전통적인 주의 메커니즘 대신 선형 주의 메커니즘을 사용하여 복잡도를 O(N²)에서 O(N)으로 줄였습니다.
디코더 스타일 텍스트 인코더: Gemma를 텍스트 인코더로 사용하여 텍스트 이해 능력을 향상시켰습니다.
효율적인 훈련 및 추론 전략: 혁신적인 Flow-DPM-Solver가 추론 단계를 줄여 생성 속도를 높였습니다.

온라인 체험

다음 온라인 데모를 통해 Sana의 강력한 기능을 체험해 보세요:

Invalid or blocked iframe URL.

ComfyUI 통합

Sana는 이제 공식적으로 ComfyUI를 지원하여 사용자가 ComfyUI의 워크플로우를 통해 Sana 모델을 쉽게 활용할 수 있습니다. 또한, 공식 LoRA 훈련 도구도 제공되어 사용자가 개인화된 모델 훈련을 할 수 있도록 지원합니다.

미래 발전

NVIDIA 팀은 훈련 코드, 추론 코드, 모델 라이브러리 출시, ComfyUI 지원 및 LoRA 훈련 기능 개발을 완료했습니다. 향후 계획에는 ControlNet 지원 개발, 8bit/4bit 장치 최적화, 대규모 모델 개발 및 인체/얼굴/텍스트 렌더링/포토리얼리즘/효율성에 중점을 둔 Sana 1.5 버전 출시가 포함됩니다.