ThinkSound: 멀티모달 오디오 생성 및 편집의 새로운 패러다임

ThinkSound는 통이 연구소의 최신 오픈소스 멀티모달 오디오 생성 및 편집 프레임워크로, 오디오 생성에 Chain-of-Thought(CoT) 추론을 도입한 선구자적인 시스템입니다. 이 프레임워크는 비디오, 텍스트, 오디오 등 다양한 모달리티에서 오디오 생성과 편집을 지원하며, 높은 충실도, 강력한 동기화, 상호작용성을 특징으로 하여 AI가 “인간 사운드 디자이너처럼 생각하고 소리를 만들 수 있도록” 합니다.

주요 특징

Any2Audio: 비디오, 텍스트, 오디오를 포함한 모든 모달 입력에서 오디오 생성을 지원합니다.
체인 추론: 멀티모달 언어 모델(MLLM)을 통한 단계별 추론을 실현하여 소리, 시각, 텍스트 간의 시간적, 의미적 일관성을 향상시킵니다.
객체 수준 대화형 편집: 비디오 객체 클릭이나 텍스트 지시를 통해 특정 사운드 이벤트의 미세 조정 또는 편집이 가능합니다.
통합 프레임워크: 생성, 미세 조정, 편집 및 대화형 워크플로우를 지원하는 단일 모델입니다.
높은 충실도와 강력한 동기화: V2A 및 영화 사운드 이펙트 등 벤치마크 테스트에서 우수한 성능을 보입니다.

기술적 특징 및 워크플로우

ThinkSound는 오디오 생성 및 편집을 세 단계로 나눕니다:

전체 사운드스케이프 생성: 비디오에서 기본 사운드스케이프를 생성하여 의미적, 시간적 정렬을 보장합니다.
객체 수준 미세 조정: 비디오의 특정 사운드 소스 영역에 집중하여 전용 사운드를 생성합니다.
지시 수준 편집: 사용자의 자연어 지시에 기반하여 오디오 콘텐츠를 대화식으로 편집합니다.

ThinkSound 방법론 개요

방법론 개요: 대화형 편집 기능과 함께 모든 모달 입력에서 오디오 생성을 지원합니다.

ThinkSound 기술 아키텍처

기술 아키텍처: 멀티모달 언어 모델이 플로우 매칭 오디오 생성 모델과 함께 작동합니다.

데이터셋 및 오픈소스

통이 연구소는 체인 추론을 지원하는 멀티모달 오디오 데이터셋인 AudioCoT를 구축했습니다. 이는 동물, 기계, 환경 등 다양한 실제 시나리오를 포함하며, 높은 데이터 품질과 객체 및 지시 수준의 대화형 편집을 지원합니다.

평가 및 응용

ThinkSound는 VGGSound 및 MovieGen Audio Bench와 같은 벤치마크 테스트에서 핵심 메트릭에서 기존 방법(MMAudio, V2A-Mappe, V-AURA, MovieGenAudio 등)을 크게 능가하며, 영화, 게임, 가상 현실 등 분야의 사운드 이펙트에서 광범위한 응용 가능성을 보여줍니다.

RunningHub

RunComfy

Comfy Deploy

Comfy Online

Comfy.ICU

InstaSD

바이트댄스, Sa2VA 출시: 최초의 통합 영상-이미지 이해 모델

ThinkSound: 멀티모달 오디오 생성 및 편집의 새로운 패러다임

주요 특징

기술적 특징 및 워크플로우

데이터셋 및 오픈소스

평가 및 응용

관련 링크