바이트댄스, Sa2VA 출시: 최초의 통합 영상-이미지 이해 모델
2025. 10. 17.
텐센트 후니위안, 오픈소스 비디오 생성 모델 공개
HunyuanVideo-I2V는 130억 개의 파라미터를 가진 멀티모달 대규모 언어 모델 기반의 이미지-비디오 변환 도구로, 단일 이미지로 5초 고화질 비디오를 생성할 수 있습니다. 개발자용 전체 패키지로 사전 학습 가중치, LoRA 학습 코드, 다중 플랫폼 배포 솔루션을 제공합니다.
현재 모델은 huggingface에서 다운로드 가능합니다.
핵심 기능 데모
기본 비디오 생성 예시
맞춤형 효과 사례
| 효과 유형 | 참조 이미지 | 생성 결과 |
|---|---|---|
| 머리카락 성장 | ![]() | |
| 포옹 동작 | ![]() |
주요 기능 특징
지능형 비디오 생성
- 단일 이미지 입력으로 5초 HD 비디오 생성 (2K 해상도 지원)
- 세 가지 제어 모드:
- 텍스트 설명: “주체+동작” 명령어 제어 (예: “운동선수 다이빙 + 슬로우 모션”)
- 오디오 동기화: 10가지 음성 스타일 지원
- 사전 설정 템플릿: 5가지 표준 댄스 루틴 포함
개발자 지원
- 전체 모델 가중치(130억 파라미터) 및 학습 코드 제공
- LoRA 미세 조정 기술 지원, 커뮤니티 제작 900+ 맞춤형 모델
- 일반용 GPU 호환 (최소 RTX 3090 필요)
실제 적용 사례
전자상거래 분야
의류 브랜드 상품 360도 전시 비디오 제작에 활용, 제작 효율 60% 향상
영상 제작
애니메이션 스튜디오 API를 통한 대량 스토리보드 생성으로 프로젝트 기간 40% 단축
창작 콘텐츠
개발자 커뮤니티에서 “만리장성 한푸 변신”, “가상 아이돌 댄스” 등 작품 제작 (사례 모음 보기)
접근 및 지원
- 온라인 체험: 텐센트 후니위안 AI 비디오 공식 사이트
- 오픈소스 코드: GitHub 저장소
- 기술 문서: 사용자 가이드
- 기업 서비스: 텐센트 클라우드 API 연동
- 텐센트 후니위안 비디오 생성 모델 ComfyUI 튜토리얼


