Skip to content
Conviértete en Patrocinador Ayuda a Construir una Mejor Base de Conocimientos de ComfyUI
NoticiasStepFun lanza Step-Video-T2V: modelo de video generativo de 300 mil millones de parámetros

StepFun lanza Step-Video-T2V: modelo de video generativo de 300 mil millones de parámetros

StepFun lanzó oficialmente su último modelo de video generativo, Step-Video-T2V, el 17 de febrero de 2025. Este modelo tiene 300 mil millones de parámetros, lo que le permite generar videos de alta calidad de hasta 204 frames. Esto es uno de los modelos de video generativo más grandes en términos de cantidad de parámetros en la comunidad de código abierto.

Características del modelo

  • Escalabilidad masiva de parámetros: Tiene 300 mil millones de parámetros, lo que permite generar videos de hasta 204 frames
  • Alta compresión: Utiliza tecnología de compresión profunda VAE, logrando una compresión espacial de 16x16 y una compresión temporal de 8x
  • Soporte bilingüe: Incorpora un codificador de texto bilingüe inglés-chino, con apoyo perfecto para palabras clave en chino
  • Licencia de código abierto: Está disponible bajo la licencia MIT, lo que permite su uso comercial
  • Tecnología de optimización: Utiliza la tecnología de Optimización Directa de Preferencias (DPO) para mejorar la calidad de generación de video

Requisitos de hardware

Se recomienda oficialmente usar una GPU equipada con 80GB de memoria para ejecutar el modelo, para obtener los mejores resultados de generación. Los requisitos específicos de hardware son los siguientes:

  • Generación de video de 544px992px204 frames: se requiere 77.64GB de memoria
  • Generación de video de 544px992px136 frames: se requiere 72.48GB de memoria

Experiencia en línea

Actualmente, Step-Video-T2V está disponible en la plataforma de videos Yuewen, ofreciendo una experiencia abierta. La plataforma admite la generación de videos suaves de 8 segundos, aunque es posible que se deba esperar en cola.

Direcciones de código abierto

El equipo de StepFun indica que el código del modelo será integrado en la biblioteca oficial de Diffusers de Hugging Face, y que continuará optimizando el rendimiento del modelo y la experiencia del usuario en el futuro. Para los usuarios que desean implementar localmente, el equipo también proporciona documentación detallada de instalación y uso.