StepFun lanza Step-Video-T2V: modelo de video generativo de 300 mil millones de parámetros
StepFun lanzó oficialmente su último modelo de video generativo, Step-Video-T2V, el 17 de febrero de 2025. Este modelo tiene 300 mil millones de parámetros, lo que le permite generar videos de alta calidad de hasta 204 frames. Esto es uno de los modelos de video generativo más grandes en términos de cantidad de parámetros en la comunidad de código abierto.
Características del modelo
- Escalabilidad masiva de parámetros: Tiene 300 mil millones de parámetros, lo que permite generar videos de hasta 204 frames
- Alta compresión: Utiliza tecnología de compresión profunda VAE, logrando una compresión espacial de 16x16 y una compresión temporal de 8x
- Soporte bilingüe: Incorpora un codificador de texto bilingüe inglés-chino, con apoyo perfecto para palabras clave en chino
- Licencia de código abierto: Está disponible bajo la licencia MIT, lo que permite su uso comercial
- Tecnología de optimización: Utiliza la tecnología de Optimización Directa de Preferencias (DPO) para mejorar la calidad de generación de video
Requisitos de hardware
Se recomienda oficialmente usar una GPU equipada con 80GB de memoria para ejecutar el modelo, para obtener los mejores resultados de generación. Los requisitos específicos de hardware son los siguientes:
- Generación de video de 544px992px204 frames: se requiere 77.64GB de memoria
- Generación de video de 544px992px136 frames: se requiere 72.48GB de memoria
Experiencia en línea
Actualmente, Step-Video-T2V está disponible en la plataforma de videos Yuewen, ofreciendo una experiencia abierta. La plataforma admite la generación de videos suaves de 8 segundos, aunque es posible que se deba esperar en cola.
Direcciones de código abierto
- Descarga del modelo: Hugging Face
- Informe técnico: arXiv:2502.10248
El equipo de StepFun indica que el código del modelo será integrado en la biblioteca oficial de Diffusers de Hugging Face, y que continuará optimizando el rendimiento del modelo y la experiencia del usuario en el futuro. Para los usuarios que desean implementar localmente, el equipo también proporciona documentación detallada de instalación y uso.