StepFun 오픈소스 Step-Video-T2V: 300억 파라미터 텍스트 기반 비디오 모델 발표
StepFun은 2025년 2월 17일에 최신 텍스트 기반 비디오 모델 Step-Video-T2V를 공식적으로 오픈소스하였습니다. 이 모델은 300억 파라미터를 보유하고 있으며, 최대 204프레임의 고품질 비디오를 생성할 수 있습니다. 이는 현재 오픈소스 커뮤니티에서 파라미터 수가 가장 많은 텍스트 기반 비디오 모델 중 하나입니다.
모델 특징
- 초대규모 파라미터: 300억 파라미터를 보유하며 최대 204프레임의 비디오 생성을 지원합니다.
- 고압축비: 심층 압축 VAE 기술을 사용하여 16x16 공간 압축 및 8x 시간 압축비를 달성합니다.
- 다국어 지원: 내장된 중영 이중 언어 텍스트 인코더로 중국어 프롬프트를 완벽하게 지원합니다.
- 오픈소스 라이센스: MIT 라이센스를 기반으로 오픈소스되어 상업적 용도를 지원합니다.
- 최적화 기술: Direct Preference Optimization (DPO) 기술을 사용하여 비디오 생성 품질을 향상시킵니다.
하드웨어 요구 사항
최상의 생성 효과를 위해 80GB VRAM을 갖춘 GPU를 사용하는 것이 공식적으로 권장됩니다. 구체적인 하드웨어 요구 사항은 다음과 같습니다:
- 544px992px 204프레임 비디오 생성: 77.64GB VRAM 필요
- 544px992px 136프레임 비디오 생성: 72.48GB VRAM 필요
온라인 체험
현재 Step-Video-T2V는 跃问视频平台에서 공개 체험을 제공하고 있습니다. 이 플랫폼은 8초 길이의 부드러운 비디오 생성을 지원하지만 대기할 필요가 있을 수 있습니다.
오픈소스 주소
- 모델 다운로드: Hugging Face
- 기술 보고서: arXiv:2502.10248
StepFun 팀은 이 모델의 코드가 Hugging Face 공식 Diffusers 라이브러리에 통합될 것이며, 앞으로 모델 성능과 사용 경험을 지속적으로 최적화할 것이라고 밝혔습니다. 로컬 배포를 원하는 사용자에게는 설치 및 사용 문서도 제공됩니다.