Skip to content
ComfyUI Wiki
帮助构建更好的 ComfyUI 知识库 成为赞助者
新闻通义实验室发布 ThinkSound:多模态音频生成与编辑新范式

ThinkSound:多模态音频生成与编辑新范式

ThinkSound 是通义实验室最新开源的多模态音频生成与编辑框架,首次将 Chain-of-Thought(CoT,思维链)推理引入音频生成领域。该框架支持从视频、文本、音频等多种模态生成或编辑音频,具备高保真、强同步、可交互等特性,为 AI 赋予“像人类音效师一样思考和创作声音”的能力。

主要特性

  • Any2Audio:支持视频、文本、音频等任意模态输入生成音频。
  • 链式推理驱动:通过多模态大语言模型(MLLM)实现逐步推理,提升声音与画面、文本的时序与语义一致性。
  • 交互式对象级编辑:可通过点击视频对象或文本指令,细化或编辑特定声音事件。
  • 统一框架:同一模型支持生成、细化、编辑与交互式 workflow。
  • 高保真与强同步:在 V2A、影视音效等权威测试集上表现优异。

技术亮点与工作流

ThinkSound 将音频生成与编辑分为三个阶段:

  1. 整体音景生成:从视频生成基础音景,保证语义与时序对齐。
  2. 对象级细化:聚焦视频中具体声源区域,生成专属声音。
  3. 指令级编辑:根据用户自然语言指令,交互式编辑音频内容。

ThinkSound 方法总览

方法总览:支持任意模态输入生成音频,具备交互式编辑能力。

ThinkSound 技术架构图

技术架构:多模态大语言模型与流匹配音频生成模型协同工作。

数据集与开源

通义实验室自建了支持链式推理的多模态音频数据集 AudioCoT,覆盖动物、机械、环境等多种真实场景,数据质量高,支持对象级与指令级交互式编辑。

评测与应用

ThinkSound 在 VGGSound、MovieGen Audio Bench 等权威测试集上,核心指标均大幅领先主流方法(如 MMAudio、V2A-Mappe、V-AURA、MovieGenAudio),展现出在影视音效、游戏、虚拟现实等领域的广泛应用潜力。

相关链接

本文图片及内容部分参考自官方项目主页与论文,仅用于技术介绍与学习交流。如有疑问请联系原作者。