HunyuanVideo 텍스트 투 비디오 워크플로우 가이드 및 예시
본 튜토리얼에서는 ComfyUI에서 텐센트의 HunyuanVideo 모델을 사용해 텍스트에서 비디오를 생성하는 방법을 자세히 설명합니다. 전체 과정을 단계별로 안내합니다.
1. ComfyUI 설치 및 최신 버전으로 업데이트
ComfyUI를 아직 설치하지 않았다면 다음 섹션을 참조하여 설치를 완료하세요:
ComfyUI 설치 가이드 ComfyUI 업데이트 가이드
‘EmptyHunyuanLatentVideo’ 노드를 사용해야 하므로 ComfyUI를 최신 버전으로 설치하고 업데이트해야 합니다.
2. 모델 다운로드 및 설치
HunyuanVideo를 위해 다음 모델 파일들을 다운로드해야 합니다:
2.1 메인 모델 파일
HunyuanVideo 메인 모델 다운로드 페이지에서 다음 파일을 다운로드하세요:
파일명 | 크기 | 설치 경로 |
---|---|---|
hunyuan_video_t2v_720p_bf16.safetensors | 약 25.6GB | ComfyUI/models/diffusion_models |
2.2 텍스트 인코더 파일
HunyuanVideo 텍스트 인코더 다운로드 페이지에서 다음 파일들을 다운로드하세요:
파일명 | 크기 | 설치 경로 |
---|---|---|
clip_l.safetensors | 약 246MB | ComfyUI/models/text_encoders |
llava_llama3_fp8_scaled.safetensors | 약 9.09GB | ComfyUI/models/text_encoders |
2.3 VAE 모델 파일
HunyuanVideo VAE 다운로드 페이지에서 다음 파일을 다운로드하세요:
파일명 | 크기 | 설치 경로 |
---|---|---|
hunyuan_video_vae_bf16.safetensors | 약 493MB | ComfyUI/models/vae |
모델 디렉토리 구조 참조
ComfyUI/
├── models/
│ ├── diffusion_models/
│ │ └── hunyuan_video_t2v_720p_bf16.safetensors # 메인 모델 파일
│ ├── text_encoders/
│ │ ├── clip_l.safetensors # CLIP 텍스트 인코더
│ │ └── llava_llama3_fp8_scaled.safetensors # LLaVA 텍스트 인코더
│ └── vae/
│ └── hunyuan_video_vae_bf16.safetensors # VAE 모델 파일
3. 워크플로우 파일 다운로드
워크플로우 파일 출처: HunyuanVideo 워크플로우 파일 다운로드
기본 비디오 생성 워크플로우
HunyuanVideo는 다음과 같은 해상도 설정을 지원합니다:
해상도 | 9:16 비율 | 16:9 비율 | 4:3 비율 | 3:4 비율 | 1:1 비율 |
---|---|---|---|---|---|
540p | 544×960×129프레임 | 960×544×129프레임 | 624×832×129프레임 | 832×624×129프레임 | 720×720×129프레임 |
720p (권장) | 720×1280×129프레임 | 1280×720×129프레임 | 1104×832×129프레임 | 832×1104×129프레임 | 960×960×129프레임 |
4. 워크플로우 노드 설명
4.1 모델 로드 노드
-
UNETLoader
- 용도: 메인 모델 파일 로드
- 매개변수:
- Model:
hunyuan_video_t2v_720p_bf16.safetensors
- Weight Type:
default
(VRAM이 부족한 경우 fp8 타입 선택)
- Model:
-
DualCLIPLoader
- 용도: 텍스트 인코더 모델 로드
- 매개변수:
- CLIP 1:
clip_l.safetensors
- CLIP 2:
llava_llama3_fp8_scaled.safetensors
- Text Encoder:
hunyuan_video
- CLIP 1:
-
VAELoader
- 용도: VAE 모델 로드
- 매개변수:
- VAE Model:
hunyuan_video_vae_bf16.safetensors
- VAE Model:
4.2 비디오 생성 핵심 노드
-
EmptyHunyuanLatentVideo
- 용도: 비디오 잠재 공간 생성
- 매개변수:
- Width: 비디오 너비 (예: 848)
- Height: 비디오 높이 (예: 480)
- Frame Count: 프레임 수 (예: 73)
- Batch Size: 배치 크기 (기본값 1)
-
CLIPTextEncode
- 용도: 텍스트 프롬프트 인코딩
- 매개변수:
- Text: 긍정적 프롬프트 (생성하고자 하는 내용 설명)
- 상세한 영어 설명 권장
-
FluxGuidance
- 용도: 생성 가이드 강도 제어
- 매개변수:
- Guidance Scale: 가이드 강도 (기본값 6.0)
- 값이 클수록 프롬프트와 더 유사하지만 비디오 품질에 영향을 줄 수 있음
-
KSamplerSelect
- 용도: 샘플러 선택
- 매개변수:
- Sampler: 샘플링 방법 (기본값
euler
) - 기타 옵션:
euler_ancestral
,dpm++_2m
등
- Sampler: 샘플링 방법 (기본값
-
BasicScheduler
- 용도: 샘플링 스케줄러 설정
- 매개변수:
- Scheduler: 스케줄링 방식 (기본값
simple
) - Steps: 샘플링 단계 (20-30 권장)
- Denoise: 노이즈 제거 강도 (기본값 1.0)
- Scheduler: 스케줄링 방식 (기본값
4.3 비디오 디코딩 및 저장 노드
-
VAEDecodeTiled
- 용도: 잠재 공간 비디오를 실제 비디오로 디코딩
- 매개변수:
- Tile Size: 256 (VRAM이 부족한 경우 줄일 수 있음)
- Overlap: 64 (VRAM이 부족한 경우 줄일 수 있음)
참고: VAEDecodeTiled가 VAEDecode보다 VRAM을 더 적게 사용하므로 우선 사용 권장
-
SaveAnimatedWEBP
- 용도: 생성된 비디오 저장
- 매개변수:
- Filename Prefix: 파일명 접두사
- FPS: 프레임률 (기본값 24)
- Lossless: 무손실 여부 (기본값 false)
- Quality: 품질 (0-100, 기본값 80)
- Filter Type: 필터 유형 (기본값
default
)
5. 매개변수 최적화 제안
5.1 VRAM 최적화
VRAM 부족 문제 발생 시:
- UNETLoader에서 fp8 가중치 타입 선택
- VAEDecodeTiled의 tile_size와 overlap 매개변수 감소
- 낮은 비디오 해상도와 프레임 수 사용
5.2 생성 품질 최적화
-
프롬프트 최적화
[주체 설명], [동작 설명], [장면 설명], [스타일 설명], [품질 요구사항]
예시:
anime style anime girl with massive fennec ears and one big fluffy tail, she has blonde hair long hair blue eyes wearing a pink sweater and a long blue skirt walking in a beautiful outdoor scenery with snow mountains in the background
-
매개변수 조정
- 샘플링 단계(Steps) 증가로 품질 향상
- Guidance Scale을 적절히 높여 텍스트 관련성 강화
- FPS와 비디오 품질 매개변수 필요에 따라 조정
6. 자주 묻는 질문
-
VRAM 부족
- VRAM 최적화 섹션의 제안 참조
- 다른 VRAM 사용 프로그램 종료
- 낮은 비디오 해상도 설정 사용
-
생성 속도 느림
- 비디오 생성에는 시간이 많이 소요되는 것이 정상
- 샘플링 단계와 프레임 수를 적절히 줄일 수 있음
- 낮은 해상도 사용으로 속도 향상 가능
-
생성 품질 문제
- 프롬프트 설명 최적화
- 샘플링 단계 증가
- Guidance Scale 조정
- 다른 샘플러 시도