HunyuanVideo 텍스트 투 비디오 워크플로우 가이드 및 예시

본 튜토리얼에서는 ComfyUI에서 텐센트의 HunyuanVideo 모델을 사용해 텍스트에서 비디오를 생성하는 방법을 자세히 설명합니다. 전체 과정을 단계별로 안내합니다.

1. ComfyUI 설치 및 최신 버전으로 업데이트

ComfyUI를 아직 설치하지 않았다면 다음 섹션을 참조하여 설치를 완료하세요:

ComfyUI 설치 가이드 ComfyUI 업데이트 가이드

'EmptyHunyuanLatentVideo' 노드를 사용해야 하므로 ComfyUI를 최신 버전으로 설치하고 업데이트해야 합니다.

2. 모델 다운로드 및 설치

HunyuanVideo를 위해 다음 모델 파일들을 다운로드해야 합니다:

2.1 메인 모델 파일

HunyuanVideo 메인 모델 다운로드 페이지에서 다음 파일을 다운로드하세요:

파일명	크기	설치 경로
hunyuan_video_t2v_720p_bf16.safetensors	약 25.6GB	ComfyUI/models/diffusion_models

2.2 텍스트 인코더 파일

HunyuanVideo 텍스트 인코더 다운로드 페이지에서 다음 파일들을 다운로드하세요:

파일명	크기	설치 경로
clip_l.safetensors	약 246MB	ComfyUI/models/text_encoders
llava_llama3_fp8_scaled.safetensors	약 9.09GB	ComfyUI/models/text_encoders

2.3 VAE 모델 파일

HunyuanVideo VAE 다운로드 페이지에서 다음 파일을 다운로드하세요:

파일명	크기	설치 경로
hunyuan_video_vae_bf16.safetensors	약 493MB	ComfyUI/models

모델 디렉토리 구조 참조

ComfyUI/
├── models/
│   ├── diffusion_models/
│   │   └── hunyuan_video_t2v_720p_bf16.safetensors  # 메인 모델 파일
│   ├── text_encoders/
│   │   ├── clip_l.safetensors                       # CLIP 텍스트 인코더
│   │   └── llava_llama3_fp8_scaled.safetensors      # LLaVA 텍스트 인코더
│   └── vae/
│       └── hunyuan_video_vae_bf16.safetensors       # VAE 모델 파일

3. 워크플로우 파일 다운로드

[Raw Json Format](https://comfyanonymous.github.io/ComfyUI_examples/hunyuan_video/hunyuan_video_text_to_video.json)

워크플로우 파일 출처: HunyuanVideo 워크플로우 파일 다운로드

기본 비디오 생성 워크플로우

HunyuanVideo는 다음과 같은 해상도 설정을 지원합니다:

해상도	9:16 비율	16:9 비율	4:3 비율	3:4 비율	1:1 비율
540p	544×960×129프레임	960×544×129프레임	624×832×129프레임	832×624×129프레임	720×720×129프레임
720p (권장)	720×1280×129프레임	1280×720×129프레임	1104×832×129프레임	832×1104×129프레임	960×960×129프레임

4. 워크플로우 노드 설명

4.1 모델 로드 노드

UNETLoader
- 용도: 메인 모델 파일 로드
- 매개변수:
  - Model: hunyuan_video_t2v_720p_bf16.safetensors
  - Weight Type: default (VRAM이 부족한 경우 fp8 타입 선택)
DualCLIPLoader
- 용도: 텍스트 인코더 모델 로드
- 매개변수:
  - CLIP 1: clip_l.safetensors
  - CLIP 2: llava_llama3_fp8_scaled.safetensors
  - Text Encoder: hunyuan_video
VAELoader
- 용도: VAE 모델 로드
- 매개변수:
  - VAE Model: hunyuan_video_vae_bf16.safetensors

4.2 비디오 생성 핵심 노드

EmptyHunyuanLatentVideo
- 용도: 비디오 잠재 공간 생성
- 매개변수:
  - Width: 비디오 너비 (예: 848)
  - Height: 비디오 높이 (예: 480)
  - Frame Count: 프레임 수 (예: 73)
  - Batch Size: 배치 크기 (기본값 1)
CLIPTextEncode
- 용도: 텍스트 프롬프트 인코딩
- 매개변수:
  - Text: 긍정적 프롬프트 (생성하고자 하는 내용 설명)
  - 상세한 영어 설명 권장
FluxGuidance
- 용도: 생성 가이드 강도 제어
- 매개변수:
  - Guidance Scale: 가이드 강도 (기본값 6.0)
  - 값이 클수록 프롬프트와 더 유사하지만 비디오 품질에 영향을 줄 수 있음
KSamplerSelect
- 용도: 샘플러 선택
- 매개변수:
  - Sampler: 샘플링 방법 (기본값 euler)
  - 기타 옵션: euler_ancestral, dpm++_2m 등
BasicScheduler
- 용도: 샘플링 스케줄러 설정
- 매개변수:
  - Scheduler: 스케줄링 방식 (기본값 simple)
  - Steps: 샘플링 단계 (20-30 권장)
  - Denoise: 노이즈 제거 강도 (기본값 1.0)

4.3 비디오 디코딩 및 저장 노드

VAEDecodeTiled
- 용도: 잠재 공간 비디오를 실제 비디오로 디코딩
- 매개변수:
  - Tile Size: 256 (VRAM이 부족한 경우 줄일 수 있음)
  - Overlap: 64 (VRAM이 부족한 경우 줄일 수 있음)
참고: VAEDecodeTiled가 VAEDecode보다 VRAM을 더 적게 사용하므로 우선 사용 권장
SaveAnimatedWEBP
- 용도: 생성된 비디오 저장
- 매개변수:
  - Filename Prefix: 파일명 접두사
  - FPS: 프레임률 (기본값 24)
  - Lossless: 무손실 여부 (기본값 false)
  - Quality: 품질 (0-100, 기본값 80)
  - Filter Type: 필터 유형 (기본값 default)

5. 매개변수 최적화 제안

5.1 VRAM 최적화

VRAM 부족 문제 발생 시:

UNETLoader에서 fp8 가중치 타입 선택
VAEDecodeTiled의 tile_size와 overlap 매개변수 감소
낮은 비디오 해상도와 프레임 수 사용

5.2 생성 품질 최적화

프롬프트 최적화

[주체 설명], [동작 설명], [장면 설명], [스타일 설명], [품질 요구사항]

예시:

anime style anime girl with massive fennec ears and one big fluffy tail, she has blonde hair long hair blue eyes wearing a pink sweater and a long blue skirt walking in a beautiful outdoor scenery with snow mountains in the background

매개변수 조정
- 샘플링 단계(Steps) 증가로 품질 향상
- Guidance Scale을 적절히 높여 텍스트 관련성 강화
- FPS와 비디오 품질 매개변수 필요에 따라 조정

6. 자주 묻는 질문

VRAM 부족
- VRAM 최적화 섹션의 제안 참조
- 다른 VRAM 사용 프로그램 종료
- 낮은 비디오 해상도 설정 사용
생성 속도 느림
- 비디오 생성에는 시간이 많이 소요되는 것이 정상
- 샘플링 단계와 프레임 수를 적절히 줄일 수 있음
- 낮은 해상도 사용으로 속도 향상 가능
생성 품질 문제
- 프롬프트 설명 최적화
- 샘플링 단계 증가
- Guidance Scale 조정
- 다른 샘플러 시도