Skip to content
더 나은 ComfyUI 지식베이스 구축을 돕기 후원자 되기
새소식텐센트, 멀티모달 비디오 생성 시스템 HunyuanCustom 출시

텐센트, 멀티모달 비디오 생성 시스템 HunyuanCustom 출시

텐센트는 최근 혁신적인 비디오 생성 기술인 HunyuanCustom(혼원 커스텀)을 공개했습니다. 이는 텍스트, 이미지, 오디오, 비디오 등 다양한 입력 조건을 지원하면서 주제의 일관성을 유지할 수 있는 멀티모달 비디오 맞춤화 프레임워크입니다. 이 기술은 관련 모델 및 코드와 함께 오픈소스로 공개되어 비디오 콘텐츠 제작에 새로운 가능성을 열었습니다.

HunyuanCustom 전체 아키텍처

기술 혁신

혼원 비디오 생성 프레임워크를 기반으로 구축된 HunyuanCustom은 현재 비디오 생성 기술에서 직면한 두 가지 주요 과제인 신원 일관성과 제한된 입력 모달리티에 중점을 둡니다. 이 기술은 몇 가지 주요 혁신을 도입했습니다:

  1. 텍스트-이미지 융합 모듈: LLaVA 기술을 기반으로 멀티모달 이해 능력 향상
  2. 이미지 ID 강화 모듈: 시간적 연결을 활용하여 프레임 전반에 걸쳐 ID 특성 강화
  3. 모달리티별 조건 주입 메커니즘:
    • AudioNet 모듈: 공간 교차 주의(attention)를 통한 계층적 정렬 구현
    • 비디오 기반 주입 모듈: 패치 기반 특성 정렬 네트워크를 통한 조건부 비디오 통합

이러한 기술 혁신을 통해 HunyuanCustom은 신원 일관성, 현실감, 텍스트-비디오 정렬 측면에서 기존의 오픈소스 및 폐쇄 소스 방법을 크게 능가하는 성능을 보여줍니다.

멀티모달 비디오 맞춤화 기능

HunyuanCustom은 다양한 형태의 입력을 지원합니다:

  • 텍스트 및 이미지 입력: 단일 또는 여러 이미지 입력을 처리하여 하나 이상의 주제에 대한 맞춤형 비디오 생성 가능
  • 오디오 입력: 추가 오디오 입력을 통합하여 주제가 해당 오디오 내용을 말하도록 할 수 있음
  • 비디오 입력: 비디오 입력을 지원하여 비디오의 특정 객체를 주어진 이미지의 주제로 대체 가능

HunyuanCustom 멀티모달 기능

응용 시나리오

HunyuanCustom의 멀티모달 기능은 다양한 다운스트림 작업을 지원합니다:

  • 가상 인간 광고: 여러 이미지를 입력하여 제품 쇼케이스 비디오 생성
  • 가상 착용: 특정 의류를 착용한 사람의 비디오 생성
  • 노래하는 아바타: 이미지와 오디오를 결합하여 노래하는 가상 캐릭터 생성
  • 비디오 편집: 이미지와 비디오를 입력으로 사용하여 비디오의 주제 교체

HunyuanCustom 응용 시나리오

성능 비교

HunyuanCustom은 VACE, Skyreels, Pika, Vidu, Keling, Hailuo 등의 최첨단 비디오 맞춤화 방법과 비교되었습니다. 평가는 얼굴/주제 일관성, 비디오-텍스트 정렬 및 전반적인 비디오 품질에 중점을 두었습니다.

주요 지표 측면에서 HunyuanCustom은 상당한 이점을 보여주었습니다:

  • 얼굴 유사도(Face-Sim): 0.627(1위)
  • DINO 유사도: 0.593(1위)
  • 시간적 일관성: 0.958(최고에 근접)

오픈소스 계획

텐센트는 2025년 5월 8일에 HunyuanCustom의 추론 코드와 모델 가중치를 공개했습니다. 오픈소스 계획에 따르면 팀은 단계적으로 다음을 공개할 예정입니다:

  • 단일 주제 비디오 맞춤화
    • 추론 코드(이미 공개됨)
    • 모델 체크포인트(이미 공개됨)
    • ComfyUI 플러그인
  • 오디오 기반 비디오 맞춤화
  • 비디오 기반 비디오 맞춤화
  • 다중 주제 비디오 맞춤화

시스템 요구 사항

HunyuanCustom 모델로 비디오를 생성하기 위한 시스템 요구 사항은 다음과 같습니다:

모델설정(높이/너비/프레임)GPU 최대 메모리
HunyuanCustom720px1280px129f80GB
HunyuanCustom512px896px129f60GB
  • 최소 요구 사항: 720p 비디오 생성에는 최소 24GB의 VRAM이 필요함(단, 매우 느림)
  • 권장 구성: 더 나은 생성 품질을 위해 80GB 메모리가 있는 GPU 권장

관련 링크