Tongyi Lab выпускает ThinkSound: новая парадигма для многомодальной генерации и редактирования аудио

ThinkSound - это последняя система многомодальной генерации и редактирования аудио с открытым исходным кодом от Tongyi Lab, пионер во внедрении цепочки рассуждений (Chain-of-Thought, CoT) в генерацию аудио. Система поддерживает генерацию и редактирование аудио из различных модальностей, включая видео, текст и аудио, с высоким качеством, сильной синхронизацией и интерактивностью, позволяя ИИ "думать и создавать звук как звукорежиссеры-люди."

Ключевые особенности

Any2Audio: Поддерживает генерацию аудио из любого модального входа, включая видео, текст и аудио.
Управляемая цепочкой рассуждений: Достигает пошаговых рассуждений через многомодальные большие языковые модели (MLLM), улучшая временную и семантическую согласованность между звуком, визуальными эффектами и текстом.
Интерактивное редактирование на уровне объектов: Позволяет уточнять или редактировать конкретные звуковые события через клики по объектам видео или текстовые инструкции.
Унифицированная система: Единая модель, поддерживающая генерацию, уточнение, редактирование и интерактивный рабочий процесс.
Высокое качество и сильная синхронизация: Отличная производительность на авторитетных тестовых наборах, включая V2A и звуковые эффекты фильмов.

Технические особенности и рабочий процесс

ThinkSound делит генерацию и редактирование аудио на три этапа:

Генерация общего звукового ландшафта: Генерирует базовый звуковой ландшафт из видео, обеспечивая семантическое и временное выравнивание.
Уточнение на уровне объектов: Фокусируется на конкретных областях источников звука в видео для генерации специализированных звуков.
Редактирование на уровне инструкций: Интерактивно редактирует аудиоконтент на основе естественных языковых инструкций пользователя.

Обзор метода: Поддерживает генерацию аудио из любого модального входа с возможностями интерактивного редактирования.

Техническая архитектура: Многомодальные большие языковые модели работают в сочетании с моделями генерации аудио flow-matching.

Набор данных и открытый исходный код

Tongyi Lab создал AudioCoT, многомодальный аудио-набор данных, поддерживающий цепочку рассуждений, охватывающий различные реальные сценарии, включая животных, механизмы и окружающую среду, с высоким качеством данных и поддержкой интерактивного редактирования на уровне объектов и инструкций.

Оценка и применения

ThinkSound значительно превосходит основные методы (такие как MMAudio, V2A-Mappe, V-AURA, MovieGenAudio) по ключевым метрикам в авторитетных тестовых наборах, включая VGGSound и MovieGen Audio Bench, демонстрируя широкий потенциал применения в звуковых эффектах фильмов, играх, виртуальной реальности и других областях.

Связанные ссылки

Изображения и контент частично взяты с официальной страницы проекта и статьи, только для технического введения и обмена знаниями. Пожалуйста, свяжитесь с оригинальными авторами для любых вопросов.

Ключевые особенности

Технические особенности и рабочий процесс

Набор данных и открытый исходный код

Оценка и применения

Связанные ссылки

Комментарии