阿里通义实验室发布VACE:视频创作与编辑迈入一体化时代
2025年4月2日,杭州 —— 阿里巴巴集团旗下通义实验室今日正式发布全球首个面向多元视频任务的统一创作与编辑框架VACE(Video Creation and Editing Framework)。该框架通过多模态技术整合,实现了从文本生成视频、视频编辑到复杂任务组合的全流程覆盖,标志着AI视频技术从单一功能向全链路智能化的重要突破。
核心功能:全场景覆盖的”视频瑞士军刀”
VACE首次将四大核心功能整合至统一平台:
- 文本转视频(T2V):仅需输入文本描述即可生成动态视频,例如”猫咪在草地玩耍”可转化为生动的场景画面。
- 参考转视频(R2V):基于图像或视频片段生成内容,确保指定元素(如特定人物、场景)的精准植入。
- 视频到视频编辑(V2V):支持全片风格化调整(如赛博朋克风转换)、色调重构及动态元素添加。
- 掩码视频编辑(MV2V):通过时空掩码技术实现局部修复、画面扩展等操作,修改区域与原片无缝融合。
更值得关注的是,VACE支持上述功能的自由组合,例如将”参考图像生成”与”掩码编辑”结合,实现物体替换、动作迁移等复杂创作,突破传统工具的边界。
技术突破:三大创新引擎驱动
视频条件单元(VCU)
首创多模态输入统一接口,将文本、图像、视频、掩码等异构数据转化为标准化输入流,解决传统工具多模型切换的复杂性问题。
概念解耦策略
自动分离视频中的人物、背景、动作等元素,实现针对性编辑。例如保留场景同时替换主体角色,避免传统编辑导致的逻辑断裂。
上下文适配器架构
基于扩散Transformer(DiT)重构的智能内核,可根据任务需求动态调整生成策略。在修复任务中聚焦细节,风格化任务则全局优化画面氛围。
测试数据显示,VACE生成的1080P视频在动态连贯性指标上较同类产品提升23%,复杂场景下的编辑效率提高40%。
应用场景:重塑行业生产力
- 内容创作:短视频创作者可通过”文本+参考图”快速生成素材框架,再通过局部编辑细化作品。
- 影视工业:实现特效制作、瑕疵修复的自动化,某影视公司测试显示后期成本降低60%。
- 社交平台:支持用户一键生成个性化动画内容,已接入阿里生态内多个社交应用。
- 教育培训:教师可基于课件图文生成教学视频,学生可创作互动式学习素材。
战略布局:AI To C的里程碑
此次发布是阿里”AI To C”战略的重要落地。自2024年底通义团队从阿里云分拆并入智能信息事业群后,其产品化进程显著加速。VACE的推出不仅填补了消费级视频创作工具的空白,更与通义实验室此前开源的ViDoRAG系统(文档理解准确率79.4%)形成技术协同,构建多模态AI生态闭环。
通义实验室负责人表示:“VACE将作为超级智能体入口,未来接入更多千问大模型能力,最终实现’所想即所得’的创作体验。“目前,VACE已上线体验版,计划于2025年三季度全面开放商用。