ThinkSound：マルチモーダル音声生成・編集の新パラダイム

ThinkSoundは、通義研究所が最新にリリースしたマルチモーダル音声生成・編集フレームワークで、Chain-of-Thought（CoT）推論を音声生成に導入した先駆的なシステムです。このフレームワークは、動画、テキスト、音声など様々なモダリティからの音声生成と編集をサポートし、高い忠実度、強力な同期、インタラクティブ性を特徴とし、AIに「人間のサウンドデザイナーのように考え、音を創造する」能力を与えます。

主な特徴

Any2Audio：動画、テキスト、音声などあらゆるモダリティ入力からの音声生成をサポート。
チェーン推論駆動：マルチモーダル大規模言語モデル（MLLM）による段階的推論を実現し、音声、映像、テキスト間の時間的・意味的一貫性を向上。
インタラクティブなオブジェクトレベル編集：動画オブジェクトのクリックやテキスト指示による特定の音声イベントの微調整や編集が可能。
統合フレームワーク：生成、微調整、編集、インタラクティブなワークフローをサポートする単一モデル。
高い忠実度と強力な同期：V2Aや映画音響効果などの権威あるテストセットで優れた性能を発揮。

技術的特徴とワークフロー

ThinkSoundは音声生成と編集を3段階に分けています：

全体的なサウンドスケープ生成：動画から基本的なサウンドスケープを生成し、意味的・時間的な整合性を確保。
オブジェクトレベルの微調整：動画内の特定の音源領域に焦点を当て、専用の音声を生成。
指示レベルの編集：ユーザーの自然言語指示に基づいて音声コンテンツをインタラクティブに編集。

ThinkSound手法の概要

手法の概要：インタラクティブな編集機能を備えたあらゆるモダリティ入力からの音声生成をサポート。

ThinkSound技術アーキテクチャ

技術アーキテクチャ：マルチモーダル大規模言語モデルがフローマッチング音声生成モデルと連携して動作。

データセットとオープンソース

通義研究所は、チェーン推論をサポートするマルチモーダル音声データセットAudioCoTを構築しました。動物、機械、環境など様々な実世界シナリオをカバーし、高品質なデータとオブジェクトレベル・指示レベルのインタラクティブな編集をサポートしています。

評価と応用

ThinkSoundは、VGGSoundやMovieGen Audio Benchなどの権威あるテストセットにおいて、主要な指標で既存の手法（MMAudio、V2A-Mappe、V-AURA、MovieGenAudioなど）を大きく上回る性能を示し、映画音響効果、ゲーム、バーチャルリアリティなどの分野での幅広い応用可能性を実証しています。

ByteDanceがSa2VAをリリース：初の統合型画像・動画理解モデル

ThinkSound：マルチモーダル音声生成・編集の新パラダイム

主な特徴

技術的特徴とワークフロー

データセットとオープンソース

評価と応用

関連リンク