Skip to content
ComfyUI Wiki の広告を削除するのを手伝う パトロンになる
ニュースByteDanceがLatentSyncをオープンソース化 - 拡散モデルベースの高精度リップシンク技術

ByteDanceがLatentSyncをオープンソース化 - 拡散モデルベースの高精度リップシンク技術

ByteDanceは最近、革新的なリップシンクツール「LatentSync」をGitHubでオープンソース化しました。これは音声条件付き潜在空間拡散モデルに基づくエンドツーエンドのリップシンクフレームワークで、高精度な音声-映像同期を実現するだけでなく、従来手法で一般的だったフレームのジッター問題も解決しています。

技術革新

LatentSyncの主な技術革新には以下が含まれます:

  1. エンドツーエンドの潜在空間拡散モデル

    • 中間モーション表現が不要
    • 潜在空間で複雑な音声-映像関係を直接モデル化
    • Stable Diffusionの強力な性能を活用
  2. 時間的一貫性の最適化

    • 革新的な時間表現アライメント(TREPA)技術を提案
    • 大規模な自己教師あり動画モデルで時間特徴を抽出
    • 生成動画の時間的一貫性を効果的に向上

完全なツールチェーン

LatentSyncは包括的な動画処理ツールチェーンを提供します:

  • 前処理ツール

    • 動画フレームレートのリサンプリング(25fps)
    • 音声リサンプリング(16000Hz)
    • シーン検出とセグメンテーション
    • 顔検出とアライメント
  • 品質保証

    • 顔のサイズと数の検証
    • 音声-映像同期の信頼度評価
    • hyperIQA画質スコアリング

幅広い適用性

LatentSyncは優れた汎用性を示しています:

  • 実写映像:人間の唇の動きを正確にキャプチャーして再現
  • アニメーションキャラクター:アニメキャラクターのリップシンクにも同様に適用可能
  • 低リソース要件:推論に約6.5GBのVRAMのみ必要

オープンソースとコミュニティ

プロジェクトはGitHubでオープンソース化され、以下を提供:

  • 推論コードと事前学習モデル
  • 完全なデータ処理パイプライン
  • トレーニングコードと設定ファイル

応用展望

LatentSyncの公開は動画制作分野に新たな可能性をもたらします:

  • 動画ポストプロダクション
  • 多言語吹き替えのローカライゼーション
  • バーチャルホスト用コンテンツ生成
  • 教育動画制作

参考リンク