ByteDanceがLatentSyncをオープンソース化 - 拡散モデルベースの高精度リップシンク技術

ByteDanceは最近、革新的なリップシンクツール「LatentSync」をGitHubでオープンソース化しました。これは音声条件付き潜在空間拡散モデルに基づくエンドツーエンドのリップシンクフレームワークで、高精度な音声-映像同期を実現するだけでなく、従来手法で一般的だったフレームのジッター問題も解決しています。

技術革新

LatentSyncの主な技術革新には以下が含まれます：

エンドツーエンドの潜在空間拡散モデル
- 中間モーション表現が不要
- 潜在空間で複雑な音声-映像関係を直接モデル化
- Stable Diffusionの強力な性能を活用
時間的一貫性の最適化
- 革新的な時間表現アライメント（TREPA）技術を提案
- 大規模な自己教師あり動画モデルで時間特徴を抽出
- 生成動画の時間的一貫性を効果的に向上

完全なツールチェーン

LatentSyncは包括的な動画処理ツールチェーンを提供します：

前処理ツール
- 動画フレームレートのリサンプリング（25fps）
- 音声リサンプリング（16000Hz）
- シーン検出とセグメンテーション
- 顔検出とアライメント
品質保証
- 顔のサイズと数の検証
- 音声-映像同期の信頼度評価
- hyperIQA画質スコアリング

幅広い適用性

LatentSyncは優れた汎用性を示しています：

実写映像：人間の唇の動きを正確にキャプチャーして再現
アニメーションキャラクター：アニメキャラクターのリップシンクにも同様に適用可能
低リソース要件：推論に約6.5GBのVRAMのみ必要

オープンソースとコミュニティ

プロジェクトはGitHubでオープンソース化され、以下を提供：

推論コードと事前学習モデル
完全なデータ処理パイプライン
トレーニングコードと設定ファイル

応用展望

LatentSyncの公開は動画制作分野に新たな可能性をもたらします：

動画ポストプロダクション
多言語吹き替えのローカライゼーション
バーチャルホスト用コンテンツ生成
教育動画制作

RunComfy

Comfy Deploy

Comfy Online

Comfy.ICU

InstaSD

Tencent Hunyuanチーム、人間の嗜好アライメント訓練効率を向上させるMixGRPOフレームワークをオープンソース化