腾讯开源 StereoCrafter：一键将普通视频转为 3D 视频

腾讯 AI Lab 和 ARC Lab 联合开发的 StereoCrafter 模型已正式开源。这是一个创新的视频处理框架，能够将普通 2D 视频转换为高质量的立体 3D 视频，为内容创作者和开发者提供了一个强大的工具。该项目由赵思杰、胡文博、寸晓东等研究人员共同完成，展现了腾讯在视频处理和 AI 领域的技术实力。

主要特点

多格式支持：可生成红蓝 3D、VR 格式或左右分屏格式的立体视频，满足不同场景需求
广泛兼容：支持多种 3D 显示设备，包括 3D 眼镜、Apple Vision Pro 和 3D 显示器
应用场景丰富：适用于电影、Vlog、3D 动画和 AI 生成视频等多种内容类型
高质量输出：基于扩散模型，能生成长时间、高保真的立体 3D 效果
自动处理：能够自动处理不同长度和分辨率的输入视频
实时预览：支持生成效果预览，确保输出质量

技术创新

StereoCrafter 采用了基于扩散模型的创新框架，整个处理流程包含两个主要阶段：

第一阶段：深度估计和视频分层

从单目视频中估计视频深度信息
通过基于深度的视频分层技术进行处理
生成初步的变形视频和遮挡蒙版

第二阶段：立体视频修复

训练专门的立体视频修复模型
根据遮挡蒙版填充空洞区域
生成最终的高质量立体视频

这种方法不仅能保持视频的高质量，还能确保生成的 3D 效果自然流畅。研究团队还开发了复杂的数据处理流程，用于重建大规模、高质量的数据集来支持训练。

实际应用场景

StereoCrafter 的应用非常广泛：

影视制作
- 经典 2D 电影的 3D 转换
- 视频后期制作增强
- 直播内容的实时 3D 转换
内容创作
- Vlog 和短视频 3D 效果制作
- YouTube 3D 内容创作
- 游戏实况录像的 3D 转换
虚拟现实
- VR 设备内容适配
- Apple Vision Pro 视频优化
- 元宇宙内容创作
教育培训
- 3D 教学视频制作
- 虚拟培训材料
- 医疗影像可视化

技术规格

输入支持：支持各种常见视频格式
分辨率：支持高达 4K 的视频处理
处理时长：可处理任意长度的视频
输出格式：
- 左右分屏 3D
- 红蓝立体 3D
- Vision Pro 专用格式
- VR 设备通用格式

开源获取

StereoCrafter 现已在 Hugging Face 平台开源，开发者可以通过以下方式获取：

未来展望

这一开源项目的发布，将为 3D 内容创作和沉浸式体验领域带来新的可能性。随着 Apple Vision Pro 等新一代 VR/AR 设备的普及，StereoCrafter 这样的工具将在内容生态建设中发挥重要作用。项目团队表示，未来将继续优化模型性能，增加更多功能特性，并探索更多应用场景。