알리바바 통이 연구소, VACE 출시: 영상 제작 및 편집의 통합 시대 진입

2025년 4월 2일, 항저우 — 알리바바 그룹의 통이 연구소가 세계 최초의 다양한 영상 작업을 위한 통합 프레임워크 VACE(영상 제작 및 편집 프레임워크)를 공식 출시했습니다. 이 프레임워크는 텍스트에서 영상 생성, 영상 편집, 복잡한 작업 조합까지 전 과정을 아우르는 다중 모달 기술을 통합하여 AI 영상 기술의 중요한 발전을 이뤄냈습니다. VACE 티저

핵심 기능: 영상의 "스위스 군용 칼"

VACE는 네 가지 핵심 기능을 통합하여 하나의 플랫폼으로 제공합니다:

텍스트-투-비디오 (T2V): 텍스트 설명만으로 동적인 영상을 생성합니다. 예를 들어, "풀밭에서 노는 고양이"라는 설명이 생생한 장면으로 변환됩니다.
참조-투-비디오 (R2V): 이미지나 영상 클립을 기반으로 콘텐츠를 생성하여 특정 요소(예: 특정 캐릭터나 장면)의 정확한 삽입을 보장합니다.
비디오-투-비디오 편집 (V2V): 전체 영상 스타일 조정(예: 사이버펑크 스타일 변환), 색상 재구성 및 동적 요소 추가를 지원합니다.
마스크 비디오-투-비디오 편집 (MV2V): 시공간 마스크 기술을 통해 지역 수리 및 프레임 확장을 구현하여 수정된 영역을 원본 영상과 매끄럽게 통합합니다.

특히 VACE는 이러한 기능의 자유로운 조합을 지원합니다. 예를 들어, "참조 이미지 생성"과 "마스크 편집"을 결합하면 객체 교체 및 동작 전이와 같은 복잡한 창작이 가능해져 전통적인 도구의 한계를 넘어섭니다.

기술 혁신: 세 가지 혁신 엔진

비디오 조건 유닛 (VCU)

다중 모달 입력을 위한 통합 인터페이스를 개척하여 텍스트, 이미지, 비디오 및 마스크와 같은 이질적인 데이터를 표준화된 입력 스트림으로 변환하여 전통적인 도구에서의 여러 모델 전환의 복잡성 문제를 해결합니다.

개념 분리 전략

비디오에서 캐릭터, 배경 및 동작과 같은 요소를 자동으로 분리하여 목표 편집을 가능하게 합니다. 예를 들어, 주 캐릭터를 교체하면서 장면을 유지하여 전통적인 편집으로 인한 논리적 단절을 피합니다.

컨텍스트 어댑터 아키텍처

Diffusion Transformer(디퓨전 변환기)를 기반으로 재구성된 지능형 커널로, 작업 요구 사항에 따라 생성 전략을 동적으로 조정합니다. 수리 작업에서는 세부 사항에 집중하고, 스타일화 작업에서는 전체적인 분위기를 최적화합니다.

테스트 데이터에 따르면 VACE가 생성한 1080P 영상은 유사 제품에 비해 동적 연속성 지표가 23% 향상되었으며, 복잡한 시나리오에서 편집 효율성이 40% 증가했습니다.

응용 시나리오: 산업 생산성 재편

콘텐츠 제작: 짧은 영상 제작자는 "텍스트 + 참조 이미지"를 통해 빠르게 자료 프레임워크를 생성한 후, 지역 편집을 통해 작업을 세부화할 수 있습니다.
영화 및 텔레비전 산업: 특수 효과 제작 및 결함 수리의 자동화. 한 영화 회사의 테스트 결과, 후반 작업 비용이 60% 감소했습니다.
소셜 플랫폼: 개인화된 애니메이션 콘텐츠를 원클릭으로 생성할 수 있으며, 이미 알리바바 생태계의 여러 소셜 애플리케이션에 통합되어 있습니다.
교육 및 훈련: 교사는 교재 텍스트와 이미지를 기반으로 교육 영상을 생성할 수 있으며, 학생들은 상호작용 학습 자료를 만들 수 있습니다.

전략적 배치: AI To C의 이정표

이번 출시는 알리바바의 "AI To C" 전략의 중요한 구현입니다. 통이 팀이 알리바바 클라우드에서 분리되어 스마트 정보 비즈니스 그룹에 통합된 이후, 제품화 과정이 크게 가속화되었습니다. VACE의 출시는 소비자 수준의 영상 제작 도구의 공백을 메울 뿐만 아니라, 통이 연구소의 이전에 오픈 소스된 ViDoRAG 시스템(79.4% 문서 이해 정확도)과 기술적 시너지를 형성하여 다중 모달 AI 생태계의 폐쇄 루프를 구축합니다.

통이 연구소의 한 대표는 "VACE는 슈퍼 지능형 에이전트의 진입점 역할을 하여, 앞으로 더 많은 Qianwen 대형 모델 기능에 연결되어 궁극적으로 '생각한 대로 얻는' 창작 경험을 실현할 것"이라고 밝혔습니다. 현재 VACE는 미리보기 버전을 출시했으며, 2025년 3분기에는 상용화될 예정입니다.