StepFun lanza Step-Video-T2V: modelo de video generativo de 300 mil millones de parámetros

StepFun lanzó oficialmente su último modelo de video generativo, Step-Video-T2V, el 17 de febrero de 2025. Este modelo tiene 300 mil millones de parámetros, lo que le permite generar videos de alta calidad de hasta 204 frames. Esto es uno de los modelos de video generativo más grandes en términos de cantidad de parámetros en la comunidad de código abierto.

Características del modelo

Escalabilidad masiva de parámetros: Tiene 300 mil millones de parámetros, lo que permite generar videos de hasta 204 frames
Alta compresión: Utiliza tecnología de compresión profunda VAE, logrando una compresión espacial de 16x16 y una compresión temporal de 8x
Soporte bilingüe: Incorpora un codificador de texto bilingüe inglés-chino, con apoyo perfecto para palabras clave en chino
Licencia de código abierto: Está disponible bajo la licencia MIT, lo que permite su uso comercial
Tecnología de optimización: Utiliza la tecnología de Optimización Directa de Preferencias (DPO) para mejorar la calidad de generación de video

Requisitos de hardware

Se recomienda oficialmente usar una GPU equipada con 80GB de memoria para ejecutar el modelo, para obtener los mejores resultados de generación. Los requisitos específicos de hardware son los siguientes:

Generación de video de 544px992px204 frames: se requiere 77.64GB de memoria
Generación de video de 544px992px136 frames: se requiere 72.48GB de memoria

Experiencia en línea

Actualmente, Step-Video-T2V está disponible en la plataforma de videos Yuewen, ofreciendo una experiencia abierta. La plataforma admite la generación de videos suaves de 8 segundos, aunque es posible que se deba esperar en cola.

Direcciones de código abierto

Descarga del modelo: Hugging Face
Informe técnico: arXiv:2502.10248

El equipo de StepFun indica que el código del modelo será integrado en la biblioteca oficial de Diffusers de Hugging Face, y que continuará optimizando el rendimiento del modelo y la experiencia del usuario en el futuro. Para los usuarios que desean implementar localmente, el equipo también proporciona documentación detallada de instalación y uso.

RunningHub

RunComfy

Comfy Deploy

Comfy Online

Comfy.ICU

InstaSD

优云智算

Desafío ComfyUI #1: ¡Participa y gana $100!

StepFun lanza Step-Video-T2V: modelo de video generativo de 300 mil millones de parámetros

Características del modelo

Requisitos de hardware

Experiencia en línea

Direcciones de código abierto