微软发布TRELLIS.2 - 40亿参数的图像转3D生成模型
2025/12/18
微软发布TRELLIS.2 - 40亿参数的图像转3D生成模型
微软近日发布了 TRELLIS.2,这是一个拥有40亿参数的大型3D生成模型,专门用于高保真的图像转3D生成任务。该模型采用了一种名为 O-Voxel 的新型稀疏体素结构,能够重建和生成具有复杂拓扑、清晰特征和完整 PBR 材质的3D资产。

主要特点
高质量与高效率
TRELLIS.2 使用稀疏3D VAE技术,以16倍的空间下采样率将3D资产编码到紧凑的潜在空间中。模型能够生成高分辨率的完整纹理资产,生成速度快:
- 512³ 分辨率: 约3秒(形状生成2秒 + 材质生成1秒)
- 1024³ 分辨率: 约17秒(形状生成10秒 + 材质生成7秒)
- 1536³ 分辨率: 约60秒(形状生成35秒 + 材质生成25秒)
这些测试结果基于 NVIDIA H100 GPU。
支持复杂拓扑结构
O-Voxel 表示方法突破了传统等值面场的限制,能够稳健地处理复杂结构:
- 开放表面: 如衣服、树叶等
- 非流形几何: 复杂的几何形状
- 内部封闭结构: 包含内部空腔的模型
丰富的材质表现
除了基本的颜色信息,TRELLIS.2 还能够建模多种表面属性,包括基础色、粗糙度、金属度和不透明度,这使得生成的3D资产能够实现照片级的渲染效果,并支持透明度。
快速的数据处理
模型的数据处理过程经过优化,实现了即时转换,完全不需要渲染和优化过程:
- 纹理网格转O-Voxel: 单个CPU上少于10秒
- O-Voxel转纹理网格: 使用CUDA加速少于100毫秒
技术实现
TRELLIS.2 构建在几个专门开发的高性能软件包之上:
- O-Voxel: 处理纹理网格与O-Voxel表示之间转换的核心库
- FlexGEMM: 基于Triton的高效稀疏卷积实现
- CuMesh: CUDA加速的网格处理工具,用于后处理、重新网格化、简化和UV展开
模型可用性
预训练的 TRELLIS.2-4B 模型已在 Hugging Face 上发布,支持 512³ 到 1536³ 的分辨率范围。模型和代码采用 MIT 许可证发布,方便研究人员和开发者使用。
项目代码需要在 Linux 系统上运行,并且需要至少24GB显存的 NVIDIA GPU。代码已在 NVIDIA A100 和 H100 GPU 上进行了验证。
实际应用
TRELLIS.2 特别适合需要快速生成高质量3D资产的应用场景,比如游戏开发、虚拟现实内容制作、产品设计可视化等。生成的3D资产包含完整的 PBR 材质信息,可以直接导出为 GLB 格式,方便在各种3D软件和引擎中使用。
对于非技术用户,团队还提供了基于网页的演示界面,可以直接上传图像进行3D生成,无需编写代码或配置复杂的环境。