ThinkSound: Un nuevo paradigma para la generación y edición de audio multimodal
ThinkSound es el más reciente marco de código abierto para generación y edición de audio multimodal del Laboratorio Tongyi, pionero en la introducción del razonamiento Chain-of-Thought (CoT) en la generación de audio. El marco soporta la generación y edición de audio desde varias modalidades incluyendo video, texto y audio, con características de alta fidelidad, fuerte sincronización e interactividad, permitiendo a la IA “pensar y crear sonido como diseñadores de sonido humanos”.
Características principales
- Any2Audio: Soporta la generación de audio desde cualquier entrada modal incluyendo video, texto y audio.
- Impulsado por razonamiento en cadena: Logra un razonamiento paso a paso a través de modelos de lenguaje grandes multimodales (MLLM), mejorando la consistencia temporal y semántica entre sonido, visuales y texto.
- Edición interactiva a nivel de objeto: Permite el refinamiento o edición de eventos sonoros específicos a través de clics en objetos de video o instrucciones de texto.
- Marco unificado: Un único modelo que soporta generación, refinamiento, edición y flujo de trabajo interactivo.
- Alta fidelidad y fuerte sincronización: Excelente rendimiento en conjuntos de prueba autorizados incluyendo V2A y efectos de sonido para películas.
Aspectos técnicos destacados y flujo de trabajo
ThinkSound divide la generación y edición de audio en tres etapas:
- Generación del paisaje sonoro general: Genera el paisaje sonoro básico desde el video, asegurando la alineación semántica y temporal.
- Refinamiento a nivel de objeto: Se enfoca en áreas específicas de fuente de sonido en el video para generar sonidos dedicados.
- Edición a nivel de instrucción: Edita interactivamente el contenido de audio basado en instrucciones en lenguaje natural del usuario.
Visión general del método: Soporta la generación de audio desde cualquier entrada modal con capacidades de edición interactiva.
Arquitectura técnica: Los modelos de lenguaje grandes multimodales trabajan en conjunto con modelos de generación de audio por coincidencia de flujo.
Conjunto de datos y código abierto
El Laboratorio Tongyi ha construido AudioCoT, un conjunto de datos de audio multimodal que soporta razonamiento en cadena, cubriendo varios escenarios del mundo real incluyendo animales, maquinaria y ambientes, con alta calidad de datos y soporte para edición interactiva a nivel de objeto e instrucción.
Evaluación y aplicaciones
ThinkSound supera significativamente los métodos convencionales (como MMAudio, V2A-Mappe, V-AURA, MovieGenAudio) en métricas centrales en conjuntos de prueba autorizados incluyendo VGGSound y MovieGen Audio Bench, demostrando un amplio potencial de aplicación en efectos de sonido para películas, juegos, realidad virtual y otros campos.
Enlaces relacionados
Las imágenes y el contenido están parcialmente referenciados de la página oficial del proyecto y el artículo, solo para introducción técnica e intercambio de aprendizaje. Por favor contacte a los autores originales para cualquier consulta.