腾讯开源 StereoCrafter:一键将普通视频转为 3D 视频
腾讯 AI Lab 和 ARC Lab 联合开发的 StereoCrafter 模型已正式开源。这是一个创新的视频处理框架,能够将普通 2D 视频转换为高质量的立体 3D 视频,为内容创作者和开发者提供了一个强大的工具。该项目由赵思杰、胡文博、寸晓东等研究人员共同完成,展现了腾讯在视频处理和 AI 领域的技术实力。
主要特点
- 多格式支持:可生成红蓝 3D、VR 格式或左右分屏格式的立体视频,满足不同场景需求
- 广泛兼容:支持多种 3D 显示设备,包括 3D 眼镜、Apple Vision Pro 和 3D 显示器
- 应用场景丰富:适用于电影、Vlog、3D 动画和 AI 生成视频等多种内容类型
- 高质量输出:基于扩散模型,能生成长时间、高保真的立体 3D 效果
- 自动处理:能够自动处理不同长度和分辨率的输入视频
- 实时预览:支持生成效果预览,确保输出质量
技术创新
StereoCrafter 采用了基于扩散模型的创新框架,整个处理流程包含两个主要阶段:
第一阶段:深度估计和视频分层
- 从单目视频中估计视频深度信息
- 通过基于深度的视频分层技术进行处理
- 生成初步的变形视频和遮挡蒙版
第二阶段:立体视频修复
- 训练专门的立体视频修复模型
- 根据遮挡蒙版填充空洞区域
- 生成最终的高质量立体视频
这种方法不仅能保持视频的高质量,还能确保生成的 3D 效果自然流畅。研究团队还开发了复杂的数据处理流程,用于重建大规模、高质量的数据集来支持训练。
实际应用场景
StereoCrafter 的应用非常广泛:
-
影视制作
- 经典 2D 电影的 3D 转换
- 视频后期制作增强
- 直播内容的实时 3D 转换
-
内容创作
- Vlog 和短视频 3D 效果制作
- YouTube 3D 内容创作
- 游戏实况录像的 3D 转换
-
虚拟现实
- VR 设备内容适配
- Apple Vision Pro 视频优化
- 元宇宙内容创作
-
教育培训
- 3D 教学视频制作
- 虚拟培训材料
- 医疗影像可视化
技术规格
- 输入支持:支持各种常见视频格式
- 分辨率:支持高达 4K 的视频处理
- 处理时长:可处理任意长度的视频
- 输出格式:
- 左右分屏 3D
- 红蓝立体 3D
- Vision Pro 专用格式
- VR 设备通用格式
开源获取
StereoCrafter 现已在 Hugging Face 平台开源,开发者可以通过以下方式获取:
未来展望
这一开源项目的发布,将为 3D 内容创作和沉浸式体验领域带来新的可能性。随着 Apple Vision Pro 等新一代 VR/AR 设备的普及,StereoCrafter 这样的工具将在内容生态建设中发挥重要作用。项目团队表示,未来将继续优化模型性能,增加更多功能特性,并探索更多应用场景。
参考资料
- StereoCrafter 官方演示视频
- 腾讯 AI Lab 技术博客
- arXiv 论文:StereoCrafter: Diffusion-based Generation of Long and High-fidelity Stereoscopic 3D from Monocular Videos