알리 통의 연구소, VACE: 통합 비디오 생성 및 편집 모델 발표
통의 연구소는 3월 11일 새로운 비디오 생성 및 편집 모델 VACE(비디오 생성 및 편집)를 발표했습니다. 이는 다양한 비디오 처리 기능을 통합한 AI 도구로, 통합된 프레임워크를 통해 비디오 제작 과정을 간소화하는 것을 목표로 합니다.
주요 기능 특징
VACE 모델의 핵심 장점은 “원스톱” 처리 능력으로, 전통적으로 여러 도구가 협력하여 수행해야 했던 복잡한 작업을 단일 프레임워크로 통합합니다. 구체적인 기능은 다음과 같습니다:
다중 작업 통합 프레임워크
- 텍스트에서 비디오(T2V): 텍스트 설명을 통해 직접 해당 비디오 콘텐츠를 생성
- 참조에서 비디오(R2V): 이미지 또는 비디오 샘플을 기반으로 특정 주제를 포함한 비디오 생성
- 비디오 편집(V2V): 비디오 스타일 변환, 동적 요소 추가 등 전반적인 조정 수행
- 마스크 비디오 편집(MV2V): 시공간 마스크를 이용해 비디오 특정 영역 수정
유연한 창작 조합 능력
VACE의 가장 큰 특징은 “만능 편집”을 지원하여 사용자가 다양한 기능을 유연하게 조합할 수 있다는 점입니다:
- 모든 물체 이동: 비디오 내 물체의 운동 경로 조정
- 모든 객체 교체: 비디오 내 인물이나 물체를 지정된 참조로 교체
- 모든 화면 확장: 비디오 경계를 확장하거나 내용을 채움
- 모든 정물 애니메이션: 정적 이미지에 자연스러운 운동 효과 부여
기술 하이라이트
VACE 모델은 여러 혁신 기술을 채택하고 있습니다:
- 비디오 조건 유닛: 텍스트, 이미지, 비디오, 마스크 등 다중 모달 입력을 통합 처리
- 개념 분리 전략: 비디오 내 요소(예: 인물, 배경, 동작)를 자동으로 분리하여 독립 수정 지원
- 맥락 적응기 구조: 확산 변환기 아키텍처를 기반으로 하여 다양한 작업에 적응하는 생성 전략 동적 조정
실제 응용 사례
이 모델은 다음과 같은 분야에 널리 활용될 수 있습니다:
- 소셜 미디어 짧은 비디오 빠른 제작
- 광고 및 마케팅 콘텐츠 제작
- 영화 후반 작업 및 특수 효과 처리
- 교육 훈련 비디오 생성
개발 팀
VACE는 통의 연구소의 연구 팀에 의해 개발되었으며, 핵심 멤버는 Zeyinzi Jiang, Zhen Han, Chaojie Mao, Jingfeng Zhang, Yulin Pan, Yu Liu입니다.
미래 발전
개발 팀은 VACE의 미래 최적화 방향을 다음과 같이 제시했습니다:
- 비디오 생성 품질 및 일관성 향상
- 실시간 편집 능력 확장
- 3D 생성 기능 강화
- 음성 명령 상호작용 탐색
VACE의 출시는 AI 비디오 제작 도구가 사용 용이성 및 통합 방향으로 발전하는 중요한 단계를 나타내며, 비디오 제작 장벽을 크게 낮추고 콘텐츠 제작자에게 보다 편리한 도구를 제공할 것으로 기대됩니다.