Skip to content
더 나은 ComfyUI 지식베이스 구축을 돕기 후원자 되기
새소식StepFun, Step1X-3D 오픈소스 공개 - 고품질 3D 에셋 생성 프레임워크

StepFun, Step1X-3D 고품질 3D 에셋 생성 프레임워크 오픈소스 공개

StepFun이 고품질 3D 에셋 생성을 위한 포괄적인 프레임워크인 Step1X-3D를 공식적으로 오픈소스로 공개했습니다. 이 프레임워크는 단일 이미지에서 정교한 기하학적 구조와 다양한 텍스처를 가진 3D 모델을 생성할 수 있으며, 2D 제어 기술의 3D 생성으로의 직접 전환을 최초로 실현했습니다.

Step1X-3D 시연

주요 특징

Step1X-3D는 3D 생성 프로세스를 기하학 생성과 텍스처 합성이라는 두 개의 독립적이지만 조화로운 단계로 분해하는 혁신적인 2단계 생성 아키텍처를 채택합니다. 프레임워크는 다음과 같은 핵심 기능을 제공합니다:

고품질 데이터 처리 파이프라인

팀은 500만 개 이상의 원본 3D 에셋에서 엄격한 데이터 정제 및 필터링 프로세스를 통해 200만 개의 고품질 3D 에셋으로 구성된 훈련 데이터셋을 구축했습니다. 이 데이터셋은 기하학적 정밀도, 텍스처 품질, 위상학적 무결성에서 높은 기준을 달성합니다.

고급 기하학 생성 기술

기하학 생성 모듈은 수밀한 절단 부호 거리 함수(TSDF) 표현을 생성할 수 있는 하이브리드 VAE-DiT 아키텍처를 채용합니다. 퍼셉터 인코딩과 샤프 엣지 샘플링 기술을 통해 시스템은 효과적으로 기하학적 세부사항을 보존하고 위상학적으로 견고한 3D 메시를 생성합니다.

시스템 아키텍처

정밀한 텍스처 합성

텍스처 합성 모듈은 Stable Diffusion XL을 기반으로 미세 조정되어 노멀 맵과 위치 맵을 통한 기하학적 가이던스를 제공하여 생성된 텍스처와 3D 기하학 간의 정밀한 정렬을 보장합니다. 시스템은 멀티뷰 일관성을 지원하며 고해상도 텍스처 맵을 생성할 수 있습니다.

유연한 제어 메커니즘

Step1X-3D는 LoRA와 같은 매개변수 효율적인 미세 조정 기술을 지원하여 사용자가 태그를 통해 객체의 대칭성, 기하학적 세부 수준 및 기타 속성을 제어할 수 있습니다. 이는 사용자에게 더 많은 창의적 제어 옵션을 제공합니다.

기술적 우위

기존 오픈소스 솔루션과 비교하여 Step1X-3D는 여러 측면에서 뛰어납니다:

생성 품질: 벤치마크 테스트에서 Step1X-3D의 기하학 및 텍스처 생성 품질은 기존 오픈소스 기준선을 능가하며, 특정 지표에서는 상용 솔루션과 비교할 만한 성능을 달성합니다.

완전한 오픈소스: 모델 가중치만 공개하는 많은 프로젝트와 달리, Step1X-3D는 완전한 훈련 코드, 데이터 처리 파이프라인, 적응 모듈을 제공하여 연구자들의 재현과 개선을 촉진합니다.

생태계 호환성: 2D 제어 기술의 3D로의 전환을 지원함으로써 Step1X-3D는 기존 이미지 생성 생태계와의 우수한 호환성을 형성합니다.

오픈소스 내용

이번 오픈소스 릴리스에는 다음이 포함됩니다:

  • 모델 가중치: 기하학 생성 모델(13억 매개변수)과 텍스처 합성 모델(35억 매개변수) 포함
  • 훈련 코드: VAE, 확산 모델, 멀티뷰 생성을 위한 완전한 훈련 코드
  • 데이터셋: 80만 개 고품질 3D 에셋의 UID 목록
  • 온라인 데모: HuggingFace Spaces에서의 인터랙티브 시연
  • 적응 도구: LoRA 미세 조정을 지원하는 적응 모듈

사용 사례

Step1X-3D는 다양한 응용 시나리오에 적합합니다:

콘텐츠 제작: 게임 개발, 영화 제작 등 분야에서의 신속한 3D 에셋 생성 제품 디자인: 컨셉 이미지 기반의 신속한 3D 프로토타입 생성 교육 및 훈련: 3D 모델링 및 디자인 교육을 위한 보조 도구 연구개발: 3D 생성 알고리즘 연구를 위한 기반 플랫폼

기술 세부사항

기하학 생성 파이프라인

시스템은 먼저 3D 형상 변분 자동 인코더를 사용하여 포인트 클라우드를 잠재 공간으로 압축한 다음, FLUX에서 영감을 받은 확산 트랜스포머를 통해 기하학 생성을 수행합니다. 이 프로세스는 샤프 엣지 샘플링과 듀얼 크로스 어텐션 메커니즘을 채용하여 기하학적 세부사항 보존을 강화합니다.

텍스처 합성 파이프라인

텍스처 생성은 멀티스테이지 파이프라인을 사용합니다: 먼저 기하학을 후처리하여 위상학적 일관성을 보장하고, 다음으로 멀티뷰 이미지 생성 모델을 통해 텍스처를 생성하며, 마지막으로 UV 베이킹과 수리를 통해 텍스처 매핑을 완성합니다.

성능 결과

사용자 연구에서 Step1X-3D는 기하학적 합리성, 텍스처 선명도, 전체적 품질에서 높은 점수를 달성하여 실용적 응용의 가능성을 보여줍니다.

커뮤니티 반응

출시 이후 Step1X-3D는 오픈소스 커뮤니티에서 광범위한 주목을 받았습니다. 프로젝트는 GitHub에서 개발자들로부터 상당한 관심을 얻었으며, HuggingFace의 온라인 시연도 많은 사용자들이 체험하고 있습니다.

많은 연구자들이 Step1X-3D의 완전한 오픈소스 전략이 3D 생성 분야 연구에 귀중한 자원을 제공하며 전체 분야의 발전을 촉진한다고 밝혔습니다.

향후 계획

프로젝트 로드맵에 따르면, 팀은 향후 더 많은 기능을 출시할 예정입니다:

  • 멀티뷰, 바운딩 박스, 스켈레톤 등 추가 제어 조건 지원
  • ComfyUI 워크플로우 통합 지원
  • 더 많은 제어 가능한 생성 모델
  • 성능 최적화 및 추론 가속화

관련 링크