텐센트, HunyuanVideo 동영상 생성 대규모 모델 오픈소스 공개

텐센트가 현재 업계 최대 규모의 동영상 생성 모델인 HunyuanVideo를 공식적으로 오픈소스로 공개했습니다. 이 모델은 130억 개의 매개변수를 보유하고 있으며, 동영상 품질과 동작 안정성 등 여러 측면에서 선도적인 수준을 달성했고, GitHub와 Hugging Face 플랫폼에서 완전히 오픈소스로 공개되었습니다.

모델의 주요 특징

통합된 이미지 및 동영상 생성 아키텍처

“이중 스트림에서 단일 스트림”으로의 하이브리드 모델 설계 채택
Transformer 아키텍처와 전체 어텐션 메커니즘 사용
이미지와 동영상의 통합 생성 지원

첨단 기술 특성

멀티모달 대규모 언어 모델(MLLM)을 텍스트 인코더로 채택
시공간 압축을 위한 3D VAE 구현
Normal과 Master 두 가지 모드를 지원하는 내장 프롬프트 재작성 기능
최대 720p의 고해상도 동영상 생성 지원

고유한 장점

전통 고전과 현대적 주제를 포함한 중국 스타일 콘텐츠의 뛰어난 표현
프롬프트를 통한 장면 전환을 지원하며 ID 일관성 유지
격렬한 동작 장면에서도 안정적인 물리적 특성 유지
전문가 평가에서 텍스트 정렬도, 동작 품질, 시각적 품질 면에서 기존 비공개 모델보다 우수한 성능 입증

하드웨어 요구사항

최소 구성: 45GB GPU VRAM(544x960 해상도)
권장 구성: 60GB GPU VRAM(720x1280 해상도)
H800/H20 등 GPU 지원

오픈소스 리소스

현재 모델은 다음 플랫폼에서 공개되어 있습니다:

GitHub 저장소: Tencent/HunyuanVideo
Hugging Face 모델: tencent/HunyuanVideo

온라인 체험

사용자는 다음 방법으로 HunyuanVideo를 체험할 수 있습니다:

공식 웹사이트: 혼위안 동영상 생성 플랫폼
텐센트 위안바오 앱의 AI 애플리케이션-AI 동영상 섹션

보완 기술

핵심 동영상 생성 모델 외에도 텐센트는 일련의 보완적인 동영상 생성 기술을 발표했습니다:

음성 이미지 통합 생성 기술
- 얼굴 말하기와 동작 동영상 생성 지원
- 전신 동작의 정확한 제어 구현
동영상 콘텐츠 이해와 음성
- 동영상 화면 내용 지능적 인식
- 프롬프트와 결합하여 매칭되는 음성 생성
얼굴 표정 전이
- 정확한 입술 동기화
- 자연스러운 표정 전이 효과

미래 전망

HunyuanVideo의 오픈소스 공개는 동영상 생성 기술의 중요한 돌파구일 뿐만 아니라, 전체 AI 동영상 생성 분야에 새로운 가능성을 가져왔습니다. 소스 코드와 사전 학습된 가중치를 공개함으로써, 텐센트는 전체 동영상 생성 생태계의 발전을 촉진하고, 더 많은 개발자와 연구자들이 기술 혁신에 참여할 수 있기를 희망합니다.

모델의 지속적인 최적화와 커뮤니티의 공동 노력으로, 가까운 미래에 AI 동영상 생성 기술이 창의적 표현, 콘텐츠 제작 등의 분야에서 더 큰 역할을 할 것으로 기대됩니다.

바이트댄스, Sa2VA 출시: 최초의 통합 영상-이미지 이해 모델