텐센트, HunyuanVideo 동영상 생성 대규모 모델 오픈소스 공개
텐센트가 현재 업계 최대 규모의 동영상 생성 모델인 HunyuanVideo를 공식적으로 오픈소스로 공개했습니다. 이 모델은 130억 개의 매개변수를 보유하고 있으며, 동영상 품질과 동작 안정성 등 여러 측면에서 선도적인 수준을 달성했고, GitHub와 Hugging Face 플랫폼에서 완전히 오픈소스로 공개되었습니다.
모델의 주요 특징
통합된 이미지 및 동영상 생성 아키텍처
- “이중 스트림에서 단일 스트림”으로의 하이브리드 모델 설계 채택
- Transformer 아키텍처와 전체 어텐션 메커니즘 사용
- 이미지와 동영상의 통합 생성 지원
첨단 기술 특성
- 멀티모달 대규모 언어 모델(MLLM)을 텍스트 인코더로 채택
- 시공간 압축을 위한 3D VAE 구현
- Normal과 Master 두 가지 모드를 지원하는 내장 프롬프트 재작성 기능
- 최대 720p의 고해상도 동영상 생성 지원
고유한 장점
- 전통 고전과 현대적 주제를 포함한 중국 스타일 콘텐츠의 뛰어난 표현
- 프롬프트를 통한 장면 전환을 지원하며 ID 일관성 유지
- 격렬한 동작 장면에서도 안정적인 물리적 특성 유지
- 전문가 평가에서 텍스트 정렬도, 동작 품질, 시각적 품질 면에서 기존 비공개 모델보다 우수한 성능 입증
하드웨어 요구사항
- 최소 구성: 45GB GPU VRAM(544x960 해상도)
- 권장 구성: 60GB GPU VRAM(720x1280 해상도)
- H800/H20 등 GPU 지원
오픈소스 리소스
현재 모델은 다음 플랫폼에서 공개되어 있습니다:
- GitHub 저장소: Tencent/HunyuanVideo
- Hugging Face 모델: tencent/HunyuanVideo
온라인 체험
사용자는 다음 방법으로 HunyuanVideo를 체험할 수 있습니다:
- 공식 웹사이트: 혼위안 동영상 생성 플랫폼
- 텐센트 위안바오 앱의 AI 애플리케이션-AI 동영상 섹션
보완 기술
핵심 동영상 생성 모델 외에도 텐센트는 일련의 보완적인 동영상 생성 기술을 발표했습니다:
-
음성 이미지 통합 생성 기술
- 얼굴 말하기와 동작 동영상 생성 지원
- 전신 동작의 정확한 제어 구현
-
동영상 콘텐츠 이해와 음성
- 동영상 화면 내용 지능적 인식
- 프롬프트와 결합하여 매칭되는 음성 생성
-
얼굴 표정 전이
- 정확한 입술 동기화
- 자연스러운 표정 전이 효과
미래 전망
HunyuanVideo의 오픈소스 공개는 동영상 생성 기술의 중요한 돌파구일 뿐만 아니라, 전체 AI 동영상 생성 분야에 새로운 가능성을 가져왔습니다. 소스 코드와 사전 학습된 가중치를 공개함으로써, 텐센트는 전체 동영상 생성 생태계의 발전을 촉진하고, 더 많은 개발자와 연구자들이 기술 혁신에 참여할 수 있기를 희망합니다.
모델의 지속적인 최적화와 커뮤니티의 공동 노력으로, 가까운 미래에 AI 동영상 생성 기술이 창의적 표현, 콘텐츠 제작 등의 분야에서 더 큰 역할을 할 것으로 기대됩니다.
관련 리소스
- 공식 문서와 예제: GitHub 문서
- 온라인 데모 플랫폼: 혼위안 동영상 생성 플랫폼
- 기술 교류 커뮤니티: GitHub Issues