텐센트, 멀티모달 비디오 생성 시스템 HunyuanCustom 출시

텐센트는 최근 혁신적인 비디오 생성 기술인 HunyuanCustom(혼원 커스텀)을 공개했습니다. 이는 텍스트, 이미지, 오디오, 비디오 등 다양한 입력 조건을 지원하면서 주제의 일관성을 유지할 수 있는 멀티모달 비디오 맞춤화 프레임워크입니다. 이 기술은 관련 모델 및 코드와 함께 오픈소스로 공개되어 비디오 콘텐츠 제작에 새로운 가능성을 열었습니다.

기술 혁신

혼원 비디오 생성 프레임워크를 기반으로 구축된 HunyuanCustom은 현재 비디오 생성 기술에서 직면한 두 가지 주요 과제인 신원 일관성과 제한된 입력 모달리티에 중점을 둡니다. 이 기술은 몇 가지 주요 혁신을 도입했습니다:

텍스트-이미지 융합 모듈: LLaVA 기술을 기반으로 멀티모달 이해 능력 향상
이미지 ID 강화 모듈: 시간적 연결을 활용하여 프레임 전반에 걸쳐 ID 특성 강화
모달리티별 조건 주입 메커니즘:
- AudioNet 모듈: 공간 교차 주의(attention)를 통한 계층적 정렬 구현
- 비디오 기반 주입 모듈: 패치 기반 특성 정렬 네트워크를 통한 조건부 비디오 통합

이러한 기술 혁신을 통해 HunyuanCustom은 신원 일관성, 현실감, 텍스트-비디오 정렬 측면에서 기존의 오픈소스 및 폐쇄 소스 방법을 크게 능가하는 성능을 보여줍니다.

멀티모달 비디오 맞춤화 기능

HunyuanCustom은 다양한 형태의 입력을 지원합니다:

텍스트 및 이미지 입력: 단일 또는 여러 이미지 입력을 처리하여 하나 이상의 주제에 대한 맞춤형 비디오 생성 가능
오디오 입력: 추가 오디오 입력을 통합하여 주제가 해당 오디오 내용을 말하도록 할 수 있음
비디오 입력: 비디오 입력을 지원하여 비디오의 특정 객체를 주어진 이미지의 주제로 대체 가능

응용 시나리오

HunyuanCustom의 멀티모달 기능은 다양한 다운스트림 작업을 지원합니다:

가상 인간 광고: 여러 이미지를 입력하여 제품 쇼케이스 비디오 생성
가상 착용: 특정 의류를 착용한 사람의 비디오 생성
노래하는 아바타: 이미지와 오디오를 결합하여 노래하는 가상 캐릭터 생성
비디오 편집: 이미지와 비디오를 입력으로 사용하여 비디오의 주제 교체

성능 비교

HunyuanCustom은 VACE, Skyreels, Pika, Vidu, Keling, Hailuo 등의 최첨단 비디오 맞춤화 방법과 비교되었습니다. 평가는 얼굴/주제 일관성, 비디오-텍스트 정렬 및 전반적인 비디오 품질에 중점을 두었습니다.

주요 지표 측면에서 HunyuanCustom은 상당한 이점을 보여주었습니다:

얼굴 유사도(Face-Sim): 0.627(1위)
DINO 유사도: 0.593(1위)
시간적 일관성: 0.958(최고에 근접)

오픈소스 계획

텐센트는 2025년 5월 8일에 HunyuanCustom의 추론 코드와 모델 가중치를 공개했습니다. 오픈소스 계획에 따르면 팀은 단계적으로 다음을 공개할 예정입니다:

단일 주제 비디오 맞춤화
- 추론 코드(이미 공개됨)
- 모델 체크포인트(이미 공개됨)
- ComfyUI 플러그인
오디오 기반 비디오 맞춤화
비디오 기반 비디오 맞춤화
다중 주제 비디오 맞춤화

시스템 요구 사항

HunyuanCustom 모델로 비디오를 생성하기 위한 시스템 요구 사항은 다음과 같습니다:

최소 요구 사항: 720p 비디오 생성에는 최소 24GB의 VRAM이 필요함(단, 매우 느림)
권장 구성: 더 나은 생성 품질을 위해 80GB 메모리가 있는 GPU 권장