텐센트, 음성 기반 디지털 휴먼 모델 HunyuanVideo-Avatar 오픈소스 공개: 한 장의 이미지와 오디오로 자연스러운 디지털 휴먼 영상 생성

텐센트 혼위안(Hunyuan) 팀은 최근 음성 기반 디지털 휴먼 모델 HunyuanVideo-Avatar를 오픈소스로 공개했습니다. 이 모델은 한 장의 인물 사진과 오디오만으로 자연스럽고 부드러운 디지털 휴먼 영상을 자동으로 생성해, 사진 속 인물이 말하거나 노래하는 모습을 연출할 수 있습니다. 숏폼 영상 제작, 이커머스 광고, 버추얼 MC 등 다양한 분야에서 HunyuanVideo-Avatar는 콘텐츠 제작자와 기업에 편리한 디지털 휴먼 영상 생성 경험을 제공합니다.

영상 데모

다양한 장면의 여성 솔로:
다양한 장면의 대화 예시:
다양한 스타일의 캐릭터 데모:

주요 기능 및 특징

한 장의 이미지와 오디오로 동적 영상 생성: 인물 사진과 오디오만 업로드하면 모델이 자동으로 내용을 이해해 자연스러운 말하기·노래 영상(표정, 입 모양, 전신 동작 포함)을 생성합니다.
고품질 및 높은 동적 표현: 고품질·다이내믹한 디지털 휴먼 영상을 생성할 수 있으며, 머리, 상반신, 전신 동작을 모두 지원합니다.
다양한 스타일·종·2인 장면 지원: 실제 인물뿐 아니라 애니메이션, 수묵화 등 다양한 예술 스타일과 로봇, 동물 등 여러 종의 동적 영상도 생성할 수 있으며, 다수 캐릭터 상호작용도 지원합니다.
감정 이식 및 제어: 참조 이미지에서 감정 신호를 추출해 생성 영상에 반영, 섬세한 감정 스타일 제어가 가능합니다.
캐릭터 일관성: 캐릭터 이미지 주입 모듈을 통해 생성 영상 내 캐릭터의 높은 일관성과 자연스러운 동작을 보장합니다.
얼굴 인식 오디오 적응: 다수 캐릭터 장면에서 얼굴 인식 오디오 어댑터로 개별 오디오 제어가 가능해 다중 캐릭터 대화도 지원합니다.

활용 사례

이커머스 라이브: 디지털 휴먼 MC가 상품을 소개해 상호작용 경험을 높임
온라인 스트리밍: 버추얼 MC, 버추얼 아이돌 콘텐츠 제작
소셜미디어 영상: 개인 및 크리에이터가 손쉽게 디지털 휴먼 숏폼 영상을 제작
콘텐츠 제작 및 편집: 애니메이션, 게임 등 분야에서 동적 영상 생성 도구로 활용
문화유산 활성화: 역사 인물, 유물 등을 디지털 휴먼으로 생생하게 표현

텐센트, 음성 기반 디지털 휴먼 모델 HunyuanVideo-Avatar 오픈소스 공개: 한 장의 이미지와 오디오로 자연스러운 디지털 휴먼 영상 생성

영상 데모

주요 기능 및 특징

활용 사례

관련 링크

댓글