HunyuanVideo 텍스트 투 비디오 워크플로우 가이드 및 예시
이 튜토리얼에서는 ComfyUI에서 텐센트 Hunyuan Video 모델을 사용하여 텍스트로 비디오를 생성하는 방법을 자세히 설명합니다. 환경 설정부터 시작하여 전체 과정을 단계별로 안내해 드리겠습니다.
1. 하드웨어 요구사항
시작하기 전에 다음과 같은 최소 시스템 요구사항을 확인하세요:
- GPU: NVIDIA 그래픽카드, CUDA 지원
- 최소 요구사항: 60GB VRAM (720p×1280p×129프레임 비디오 생성)
- 권장 사양: 80GB VRAM (더 나은 품질의 생성을 위해)
- 최소 사용 가능 사양: 45GB VRAM (544p×960p×129프레임 비디오 생성)
- 운영체제: Linux (공식 테스트 환경)
- CUDA 버전: CUDA 11.8 또는 12.0+ 권장
하드웨어 사양 정보 출처: https://huggingface.co/tencent/HunyuanVideo
1. ComfyUI 설치 및 최신 버전으로 업데이트
ComfyUI를 아직 설치하지 않았다면 다음 섹션을 참조하여 설치를 완료하세요:
ComfyUI 설치 가이드 ComfyUI 업데이트 가이드
‘EmptyHunyuanLatentVideo’ 노드를 사용해야 하므로 ComfyUI를 최신 버전으로 설치하고 업데이트해야 합니다.
2. 모델 다운로드 및 설치
HunyuanVideo를 위해 다음 모델 파일들을 다운로드해야 합니다:
2.1 메인 모델 파일
HunyuanVideo 메인 모델 다운로드 페이지에서 다음 파일을 다운로드하세요:
파일명 | 크기 | 설치 경로 |
---|---|---|
hunyuan_video_t2v_720p_bf16.safetensors | 약 25.6GB | ComfyUI/models/diffusion_models |
2.2 텍스트 인코더 파일
HunyuanVideo 텍스트 인코더 다운로드 페이지에서 다음 파일들을 다운로드하세요:
파일명 | 크기 | 설치 경로 |
---|---|---|
clip_l.safetensors | 약 246MB | ComfyUI/models/text_encoders |
llava_llama3_fp8_scaled.safetensors | 약 9.09GB | ComfyUI/models/text_encoders |
2.3 VAE 모델 파일
HunyuanVideo VAE 다운로드 페이지에서 다음 파일을 다운로드하세요:
파일명 | 크기 | 설치 경로 |
---|---|---|
hunyuan_video_vae_bf16.safetensors | 약 493MB | ComfyUI/models/vae |
모델 디렉토리 구조 참조
ComfyUI/
├── models/
│ ├── diffusion_models/
│ │ └── hunyuan_video_t2v_720p_bf16.safetensors # 메인 모델 파일
│ ├── text_encoders/
│ │ ├── clip_l.safetensors # CLIP 텍스트 인코더
│ │ └── llava_llama3_fp8_scaled.safetensors # LLaVA 텍스트 인코더
│ └── vae/
│ └── hunyuan_video_vae_bf16.safetensors # VAE 모델 파일
3. 워크플로우 파일 다운로드
워크플로우 파일 출처: HunyuanVideo 워크플로우 파일 다운로드
기본 비디오 생성 워크플로우
HunyuanVideo는 다음과 같은 해상도 설정을 지원합니다:
해상도 | 9:16 비율 | 16:9 비율 | 4:3 비율 | 3:4 비율 | 1:1 비율 |
---|---|---|---|---|---|
540p | 544×960×129프레임 | 960×544×129프레임 | 624×832×129프레임 | 832×624×129프레임 | 720×720×129프레임 |
720p (권장) | 720×1280×129프레임 | 1280×720×129프레임 | 1104×832×129프레임 | 832×1104×129프레임 | 960×960×129프레임 |
4. 워크플로우 노드 설명
4.1 모델 로드 노드
-
UNETLoader
- 용도: 메인 모델 파일 로드
- 매개변수:
- Model:
hunyuan_video_t2v_720p_bf16.safetensors
- Weight Type:
default
(VRAM이 부족한 경우 fp8 타입 선택)
- Model:
-
DualCLIPLoader
- 용도: 텍스트 인코더 모델 로드
- 매개변수:
- CLIP 1:
clip_l.safetensors
- CLIP 2:
llava_llama3_fp8_scaled.safetensors
- Text Encoder:
hunyuan_video
- CLIP 1:
-
VAELoader
- 용도: VAE 모델 로드
- 매개변수:
- VAE Model:
hunyuan_video_vae_bf16.safetensors
- VAE Model:
4.2 비디오 생성 핵심 노드
-
EmptyHunyuanLatentVideo
- 용도: 비디오 잠재 공간 생성
- 매개변수:
- Width: 비디오 너비 (예: 848)
- Height: 비디오 높이 (예: 480)
- Frame Count: 프레임 수 (예: 73)
- Batch Size: 배치 크기 (기본값 1)
-
CLIPTextEncode
- 용도: 텍스트 프롬프트 인코딩
- 매개변수:
- Text: 긍정적 프롬프트 (생성하고자 하는 내용 설명)
- 상세한 영어 설명 권장
-
FluxGuidance
- 용도: 생성 가이드 강도 제어
- 매개변수:
- Guidance Scale: 가이드 강도 (기본값 6.0)
- 값이 클수록 프롬프트와 더 유사하지만 비디오 품질에 영향을 줄 수 있음
-
KSamplerSelect
- 용도: 샘플러 선택
- 매개변수:
- Sampler: 샘플링 방법 (기본값
euler
) - 기타 옵션:
euler_ancestral
,dpm++_2m
등
- Sampler: 샘플링 방법 (기본값
-
BasicScheduler
- 용도: 샘플링 스케줄러 설정
- 매개변수:
- Scheduler: 스케줄링 방식 (기본값
simple
) - Steps: 샘플링 단계 (20-30 권장)
- Denoise: 노이즈 제거 강도 (기본값 1.0)
- Scheduler: 스케줄링 방식 (기본값
4.3 비디오 디코딩 및 저장 노드
-
VAEDecodeTiled
- 용도: 잠재 공간 비디오를 실제 비디오로 디코딩
- 매개변수:
- Tile Size: 256 (VRAM이 부족한 경우 줄일 수 있음)
- Overlap: 64 (VRAM이 부족한 경우 줄일 수 있음)
참고: VAEDecodeTiled가 VAEDecode보다 VRAM을 더 적게 사용하므로 우선 사용 권장
-
SaveAnimatedWEBP
- 용도: 생성된 비디오 저장
- 매개변수:
- Filename Prefix: 파일명 접두사
- FPS: 프레임률 (기본값 24)
- Lossless: 무손실 여부 (기본값 false)
- Quality: 품질 (0-100, 기본값 80)
- Filter Type: 필터 유형 (기본값
default
)
5. 매개변수 최적화 제안
5.1 VRAM 최적화
VRAM 부족 문제 발생 시:
- UNETLoader에서 fp8 가중치 타입 선택
- VAEDecodeTiled의 tile_size와 overlap 매개변수 감소
- 낮은 비디오 해상도와 프레임 수 사용
5.2 생성 품질 최적화
-
프롬프트 최적화
[주체 설명], [동작 설명], [장면 설명], [스타일 설명], [품질 요구사항]
예시:
anime style anime girl with massive fennec ears and one big fluffy tail, she has blonde hair long hair blue eyes wearing a pink sweater and a long blue skirt walking in a beautiful outdoor scenery with snow mountains in the background
-
매개변수 조정
- 샘플링 단계(Steps) 증가로 품질 향상
- Guidance Scale을 적절히 높여 텍스트 관련성 강화
- FPS와 비디오 품질 매개변수 필요에 따라 조정
6. 자주 묻는 질문
-
VRAM 부족
- VRAM 최적화 섹션의 제안 참조
- 다른 VRAM 사용 프로그램 종료
- 낮은 비디오 해상도 설정 사용
-
생성 속도 느림
- 비디오 생성에는 시간이 많이 소요되는 것이 정상
- 샘플링 단계와 프레임 수를 적절히 줄일 수 있음
- 낮은 해상도 사용으로 속도 향상 가능
-
생성 품질 문제
- 프롬프트 설명 최적화
- 샘플링 단계 증가
- Guidance Scale 조정
- 다른 샘플러 시도