ThinkSound: Un nuevo paradigma para la generación y edición de audio multimodal

ThinkSound es el más reciente marco de código abierto para generación y edición de audio multimodal del Laboratorio Tongyi, pionero en la introducción del razonamiento Chain-of-Thought (CoT) en la generación de audio. El marco soporta la generación y edición de audio desde varias modalidades incluyendo video, texto y audio, con características de alta fidelidad, fuerte sincronización e interactividad, permitiendo a la IA “pensar y crear sonido como diseñadores de sonido humanos”.

Características principales

Any2Audio: Soporta la generación de audio desde cualquier entrada modal incluyendo video, texto y audio.
Impulsado por razonamiento en cadena: Logra un razonamiento paso a paso a través de modelos de lenguaje grandes multimodales (MLLM), mejorando la consistencia temporal y semántica entre sonido, visuales y texto.
Edición interactiva a nivel de objeto: Permite el refinamiento o edición de eventos sonoros específicos a través de clics en objetos de video o instrucciones de texto.
Marco unificado: Un único modelo que soporta generación, refinamiento, edición y flujo de trabajo interactivo.
Alta fidelidad y fuerte sincronización: Excelente rendimiento en conjuntos de prueba autorizados incluyendo V2A y efectos de sonido para películas.

Aspectos técnicos destacados y flujo de trabajo

ThinkSound divide la generación y edición de audio en tres etapas:

Generación del paisaje sonoro general: Genera el paisaje sonoro básico desde el video, asegurando la alineación semántica y temporal.
Refinamiento a nivel de objeto: Se enfoca en áreas específicas de fuente de sonido en el video para generar sonidos dedicados.
Edición a nivel de instrucción: Edita interactivamente el contenido de audio basado en instrucciones en lenguaje natural del usuario.

Visión general del método ThinkSound

Visión general del método: Soporta la generación de audio desde cualquier entrada modal con capacidades de edición interactiva.

Arquitectura técnica de ThinkSound

Arquitectura técnica: Los modelos de lenguaje grandes multimodales trabajan en conjunto con modelos de generación de audio por coincidencia de flujo.

Conjunto de datos y código abierto

El Laboratorio Tongyi ha construido AudioCoT, un conjunto de datos de audio multimodal que soporta razonamiento en cadena, cubriendo varios escenarios del mundo real incluyendo animales, maquinaria y ambientes, con alta calidad de datos y soporte para edición interactiva a nivel de objeto e instrucción.

Evaluación y aplicaciones

ThinkSound supera significativamente los métodos convencionales (como MMAudio, V2A-Mappe, V-AURA, MovieGenAudio) en métricas centrales en conjuntos de prueba autorizados incluyendo VGGSound y MovieGen Audio Bench, demostrando un amplio potencial de aplicación en efectos de sonido para películas, juegos, realidad virtual y otros campos.

Enlaces relacionados

Las imágenes y el contenido están parcialmente referenciados de la página oficial del proyecto y el artículo, solo para introducción técnica e intercambio de aprendizaje. Por favor contacte a los autores originales para cualquier consulta.

RunningHub

RunComfy

Comfy Deploy

Comfy Online

Comfy.ICU

InstaSD

ByteDance lanza Sa2VA: Primer modelo unificado de comprensión de imágenes y videos