ThinkSound : Un nouveau paradigme pour la génération et l’édition audio multimodale
ThinkSound est le dernier framework open source de génération et d’édition audio multimodale du laboratoire Tongyi, pionnier dans l’introduction du raisonnement Chain-of-Thought (CoT) dans la génération audio. Le framework prend en charge la génération et l’édition audio à partir de diverses modalités, notamment la vidéo, le texte et l’audio, avec des caractéristiques de haute fidélité, de forte synchronisation et d’interactivité, permettant à l’IA de “penser et créer le son comme des designers sonores humains”.
Caractéristiques principales
- Any2Audio : Prend en charge la génération audio à partir de toute entrée modale, y compris la vidéo, le texte et l’audio.
- Raisonnement en chaîne : Réalise un raisonnement étape par étape grâce aux modèles de langage multimodaux (MLLM), améliorant la cohérence temporelle et sémantique entre le son, les visuels et le texte.
- Édition interactive au niveau des objets : Permet l’affinement ou l’édition d’événements sonores spécifiques via des clics sur des objets vidéo ou des instructions textuelles.
- Framework unifié : Un seul modèle prenant en charge la génération, l’affinement, l’édition et le workflow interactif.
- Haute fidélité et forte synchronisation : Excellentes performances sur les jeux de tests de référence, notamment V2A et les effets sonores de films.
Points techniques et workflow
ThinkSound divise la génération et l’édition audio en trois étapes :
- Génération du paysage sonore global : Génère un paysage sonore de base à partir de la vidéo, assurant l’alignement sémantique et temporel.
- Affinement au niveau des objets : Se concentre sur des zones sources sonores spécifiques dans la vidéo pour générer des sons dédiés.
- Édition au niveau des instructions : Édite interactivement le contenu audio basé sur les instructions en langage naturel de l’utilisateur.
Aperçu de la méthode : Prend en charge la génération audio à partir de toute entrée modale avec des capacités d’édition interactive.
Architecture technique : Les modèles de langage multimodaux travaillent en conjonction avec les modèles de génération audio par flow matching.
Jeu de données et open source
Le laboratoire Tongyi a construit AudioCoT, un jeu de données audio multimodal prenant en charge le raisonnement en chaîne, couvrant divers scénarios du monde réel, notamment les animaux, les machines et les environnements, avec une haute qualité de données et un support pour l’édition interactive au niveau des objets et des instructions.
Évaluation et applications
ThinkSound surpasse significativement les méthodes conventionnelles (comme MMAudio, V2A-Mappe, V-AURA, MovieGenAudio) sur les métriques centrales dans les jeux de tests de référence, notamment VGGSound et MovieGen Audio Bench, démontrant un large potentiel d’application dans les effets sonores pour films, jeux, réalité virtuelle et autres domaines.
Liens connexes
Les images et le contenu sont partiellement référencés à partir de la page officielle du projet et de l’article, uniquement pour l’introduction technique et l’échange d’apprentissage. Veuillez contacter les auteurs originaux pour toute demande.