Tencent lanza StereoCrafter: Convierte videos normales a 3D con un solo clic
El modelo StereoCrafter, desarrollado conjuntamente por Tencent AI Lab y ARC Lab, ahora es de código abierto. Este es un marco innovador de procesamiento de video que puede convertir videos 2D normales en videos 3D estereoscópicos de alta calidad, proporcionando una poderosa herramienta para creadores de contenido y desarrolladores. El proyecto fue completado por investigadores como Zhao Sijie, Hu Wenbo, Cun Xiaodong y otros, demostrando la capacidad técnica de Tencent en el campo del procesamiento de video e IA.
Características principales
- Soporte multiformato: Puede generar videos estereoscópicos en formato 3D rojo-azul, formato VR o formato de pantalla dividida, satisfaciendo diferentes necesidades
- Amplia compatibilidad: Compatible con varios dispositivos de visualización 3D, incluyendo gafas 3D, Apple Vision Pro y pantallas 3D
- Escenarios de aplicación diversos: Adecuado para películas, vlogs, animación 3D y varios tipos de contenido de video generado por IA
- Salida de alta calidad: Basado en modelos de difusión, capaz de generar efectos 3D estereoscópicos de larga duración y alta fidelidad
- Procesamiento automático: Puede procesar videos de diferentes longitudes y resoluciones
- Vista previa en tiempo real: Admite vista previa de efectos para garantizar la calidad de salida
Innovación técnica
StereoCrafter adopta un marco innovador basado en modelos de difusión, con un proceso que incluye dos etapas principales:
Primera etapa: Estimación de profundidad y estratificación de video
- Estimación de información de profundidad de video monocular
- Procesamiento mediante tecnología de estratificación de video basada en profundidad
- Generación de video deformado preliminar y máscaras de oclusión
Segunda etapa: Reparación de video estereoscópico
- Entrenamiento de modelos especializados de reparación de video estereoscópico
- Relleno de áreas ocultas según máscaras de oclusión
- Generación del video estereoscópico final de alta calidad
Este método no solo mantiene la alta calidad del video, sino que también asegura que los efectos 3D generados sean naturales y fluidos. El equipo de investigación también desarrolló un complejo proceso de procesamiento de datos para reconstruir conjuntos de datos a gran escala y de alta calidad para el entrenamiento.
Escenarios de aplicación práctica
StereoCrafter tiene una amplia gama de aplicaciones:
-
Producción cinematográfica
- Conversión de películas 2D clásicas a 3D
- Mejora de postproducción de video
- Conversión 3D en tiempo real de contenido en vivo
-
Creación de contenido
- Creación de efectos 3D para vlogs y videos cortos
- Creación de contenido 3D para YouTube
- Conversión 3D de grabaciones de juegos
-
Realidad virtual
- Adaptación de contenido para dispositivos VR
- Optimización de video para Apple Vision Pro
- Creación de contenido para el metaverso
-
Educación y formación
- Producción de videos educativos en 3D
- Materiales de formación virtual
- Visualización de imágenes médicas
Especificaciones técnicas
- Soporte de entrada: Compatible con varios formatos de video comunes
- Resolución: Admite procesamiento de video de hasta 4K
- Duración del procesamiento: Puede procesar videos de cualquier longitud
- Formatos de salida:
- 3D de pantalla dividida
- 3D anaglifo (rojo-azul)
- Formato específico para Vision Pro
- Formato universal para dispositivos VR
Acceso al código abierto
StereoCrafter ahora está disponible en código abierto en la plataforma Hugging Face, los desarrolladores pueden acceder a través de:
Perspectivas futuras
El lanzamiento de este proyecto de código abierto traerá nuevas posibilidades para la creación de contenido 3D y experiencias inmersivas. Con la popularización de dispositivos VR/AR de nueva generación como Apple Vision Pro, herramientas como StereoCrafter jugarán un papel importante en la construcción del ecosistema de contenido. El equipo del proyecto indica que continuarán optimizando el rendimiento del modelo, agregando más características y explorando más escenarios de aplicación.
Referencias
- Video de demostración oficial de StereoCrafter
- Blog técnico de Tencent AI Lab
- Paper en arXiv: StereoCrafter: Diffusion-based Generation of Long and High-fidelity Stereoscopic 3D from Monocular Videos