Skip to content
Follow me on X
ComfyUI Wiki
새소식Microsoft, TRELLIS.2 발표 - 40억 파라미터 이미지-to-3D 생성 모델

Microsoft, TRELLIS.2 발표 - 40억 파라미터 이미지-to-3D 생성 모델

Microsoft가 최근 40억 파라미터를 가진 대규모 3D 생성 모델 TRELLIS.2를 발표했습니다. 이 모델은 고충실도 이미지-to-3D 생성 작업을 위해 특별히 설계되었습니다. O-Voxel이라는 새로운 희소 복셀 구조를 사용하여 복잡한 토폴로지, 선명한 특징, 완전한 PBR 재질을 가진 3D 자산을 재구성하고 생성할 수 있습니다.

TRELLIS.2 예시

주요 특징

높은 품질과 효율성

TRELLIS.2는 Sparse 3D VAE 기술을 사용하여 16배의 공간 다운샘플링으로 3D 자산을 컴팩트한 잠재 공간으로 인코딩합니다. 모델은 인상적인 속도로 고해상도 완전 텍스처 자산을 생성할 수 있습니다:

  • 512³ 해상도: 약 3초 (형상 2초 + 재질 1초)
  • 1024³ 해상도: 약 17초 (형상 10초 + 재질 7초)
  • 1536³ 해상도: 약 60초 (형상 35초 + 재질 25초)

이러한 테스트 결과는 NVIDIA H100 GPU를 기반으로 합니다.

복잡한 토폴로지 지원

O-Voxel 표현 방법은 전통적인 등면(isosurface) 필드의 한계를 극복하고 복잡한 구조를 견고하게 처리할 수 있습니다:

  • 개방형 표면: 의류, 나뭇잎 등
  • 비다양체 기하학: 복잡한 기하학적 형상
  • 내부 폐쇄 구조: 내부 공동을 포함하는 모델

풍부한 재질 표현

기본 색상 정보를 넘어, TRELLIS.2는 기본 색상, 거칠기, 금속성, 불투명도를 포함한 다양한 표면 속성을 모델링할 수 있어, 생성된 3D 자산의 사실적인 렌더링과 투명도 지원을 가능하게 합니다.

빠른 데이터 처리

모델의 데이터 처리 파이프라인은 즉시 변환을 위해 최적화되어 있으며, 렌더링 및 최적화 프로세스에서 완전히 자유롭습니다:

  • 텍스처 메시를 O-Voxel로: 단일 CPU에서 10초 미만
  • O-Voxel을 텍스처 메시로: CUDA 가속으로 100밀리초 미만

기술 구현

TRELLIS.2는 여러 전문 고성능 패키지를 기반으로 구축되었습니다:

  • O-Voxel: 텍스처 메시와 O-Voxel 표현 간의 변환을 처리하는 핵심 라이브러리
  • FlexGEMM: Triton 기반의 효율적인 희소 컨볼루션 구현
  • CuMesh: 후처리, 리메싱, 단순화, UV 언래핑을 위한 CUDA 가속 메시 처리 유틸리티

모델 가용성

사전 학습된 TRELLIS.2-4B 모델은 Hugging Face에서 제공되며, 512³에서 1536³까지의 해상도를 지원합니다. 모델과 코드는 MIT 라이선스로 공개되어 연구자와 개발자가 액세스할 수 있습니다.

프로젝트 코드는 Linux 시스템과 최소 24GB 메모리를 가진 NVIDIA GPU가 필요합니다. 코드는 NVIDIA A100 및 H100 GPU에서 검증되었습니다.

실제 응용

TRELLIS.2는 게임 개발, 가상 현실 콘텐츠 제작, 제품 디자인 시각화 등 고품질 3D 자산의 빠른 생성이 필요한 시나리오에 특히 적합합니다. 생성된 3D 자산에는 완전한 PBR 재질 정보가 포함되어 있으며, 다양한 3D 소프트웨어와 엔진에서 사용하기 위해 GLB 형식으로 직접 내보낼 수 있습니다.

비기술 사용자를 위해 팀은 코드 작성이나 복잡한 환경 구성 없이 이미지를 직접 업로드하여 3D 생성을 할 수 있는 웹 기반 데모 인터페이스도 제공합니다.

관련 링크