ComfyUI Wiki•

帮助构建更好的 ComfyUI 知识库成为赞助者

AMAP 发布 FLUX-Text 场景文本编辑新方法

2025/07/09

Stability AI发布Stable Virtual Camera：将2D照片转换为3D视频的技术

Stability AI近日推出了一款名为Stable Virtual Camera的全新AI模型，该技术能够将普通的2D图像转换为具有真实深度和透视效果的3D视频，无需复杂的场景重建或专业技能。

Stable Virtual Camera演示视频

技术特点与功能

Stable Virtual Camera是一种多视角扩散模型，它结合了传统虚拟相机的控制能力与生成式AI的创造力。该模型的主要特点包括：

灵活的输入选项：可以从单张图像或多张图像（最多支持32张）生成3D视频
多样化的相机路径：支持14种动态相机路径，包括360°旋转、螺旋、滑动变焦等
自定义视角控制：用户可以指定相机角度，生成场景的新视角
多种宽高比支持：能生成正方形(1:1)、竖屏(9:16)和横屏(16:9)等不同比例的视频
长视频生成能力：可生成最长1000帧的视频，并保持3D一致性

与传统的3D视频模型相比，Stable Virtual Camera不需要大量输入图像或复杂的预处理步骤，使得生成3D内容变得更加简单易行。这一技术在新视角合成(NVS)基准测试中表现出色，性能超过了现有的一些模型。

应用场景

这项技术可能在多个领域有广泛应用：

影视制作：为电影和动画创作者提供更经济高效的视觉效果工具
虚拟现实：快速生成可交互的3D场景，推动VR体验的发展
内容创作：使普通用户能够创建沉浸式视频内容
广告与营销：为品牌提供新型视觉表现形式

当前限制

尽管Stable Virtual Camera表现出色，但Stability AI也坦言该技术在某些场景下存在局限性：

包含人类、动物或动态纹理（如水）的图像可能会导致输出质量下降
高度模糊的场景和不规则形状的物体可能会产生闪烁伪影
当目标视角与输入图像有显著差异时，可能会出现质量问题

开放获取

值得注意的是，Stability AI已将这一技术开源，用户可以通过以下渠道获取：

代码库：GitHub
模型：HuggingFace
在线演示：通过HuggingFace Spaces提供

相关链接

如果您想了解更多关于Stable Virtual Camera的信息，可以访问以下资源：

此次Stable Virtual Camera的发布是Stability AI在生成式AI领域的又一重要进展，继其广受欢迎的Stable Diffusion图像生成模型之后，进一步扩展了AI在视觉创作中的应用边界。