Black Forest Labs выпускает открытую версию FLUX.1 Krea [dev] с нативной поддержкой ComfyUI
31.07.2025
ThinkSound: новая парадигма для многомодальной генерации и редактирования аудио
ThinkSound - это последняя система многомодальной генерации и редактирования аудио с открытым исходным кодом от Tongyi Lab, пионер во внедрении цепочки рассуждений (Chain-of-Thought, CoT) в генерацию аудио. Система поддерживает генерацию и редактирование аудио из различных модальностей, включая видео, текст и аудио, с высоким качеством, сильной синхронизацией и интерактивностью, позволяя ИИ “думать и создавать звук как звукорежиссеры-люди.”
Ключевые особенности
- Any2Audio: Поддерживает генерацию аудио из любого модального входа, включая видео, текст и аудио.
- Управляемая цепочкой рассуждений: Достигает пошаговых рассуждений через многомодальные большие языковые модели (MLLM), улучшая временную и семантическую согласованность между звуком, визуальными эффектами и текстом.
- Интерактивное редактирование на уровне объектов: Позволяет уточнять или редактировать конкретные звуковые события через клики по объектам видео или текстовые инструкции.
- Унифицированная система: Единая модель, поддерживающая генерацию, уточнение, редактирование и интерактивный рабочий процесс.
- Высокое качество и сильная синхронизация: Отличная производительность на авторитетных тестовых наборах, включая V2A и звуковые эффекты фильмов.
Технические особенности и рабочий процесс
ThinkSound делит генерацию и редактирование аудио на три этапа:
- Генерация общего звукового ландшафта: Генерирует базовый звуковой ландшафт из видео, обеспечивая семантическое и временное выравнивание.
- Уточнение на уровне объектов: Фокусируется на конкретных областях источников звука в видео для генерации специализированных звуков.
- Редактирование на уровне инструкций: Интерактивно редактирует аудиоконтент на основе естественных языковых инструкций пользователя.
Обзор метода: Поддерживает генерацию аудио из любого модального входа с возможностями интерактивного редактирования.
Техническая архитектура: Многомодальные большие языковые модели работают в сочетании с моделями генерации аудио flow-matching.
Набор данных и открытый исходный код
Tongyi Lab создал AudioCoT, многомодальный аудио-набор данных, поддерживающий цепочку рассуждений, охватывающий различные реальные сценарии, включая животных, механизмы и окружающую среду, с высоким качеством данных и поддержкой интерактивного редактирования на уровне объектов и инструкций.
Оценка и применения
ThinkSound значительно превосходит основные методы (такие как MMAudio, V2A-Mappe, V-AURA, MovieGenAudio) по ключевым метрикам в авторитетных тестовых наборах, включая VGGSound и MovieGen Audio Bench, демонстрируя широкий потенциал применения в звуковых эффектах фильмов, играх, виртуальной реальности и других областях.
Связанные ссылки
Изображения и контент частично взяты с официальной страницы проекта и статьи, только для технического введения и обмена знаниями. Пожалуйста, свяжитесь с оригинальными авторами для любых вопросов.