Skip to content
帮助 ComfyUI Wiki 移除广告 成为赞助者
新闻字节跳动开源LatentSync - 基于扩散模型的高精度口型同步技术

字节跳动开源LatentSync - 基于扩散模型的高精度口型同步技术

字节跳动近日在GitHub上开源了一款创新的口型同步工具——LatentSync。这是一个基于音频条件潜空间扩散模型的端到端口型同步框架,不仅能实现高精度的音画同步,还解决了传统方法中常见的画面跳动问题。

技术创新

LatentSync的主要技术创新包括:

  1. 端到端的潜空间扩散模型

    • 无需中间动作表示
    • 直接在潜空间中建模复杂的音视频关联
    • 充分利用Stable Diffusion的强大性能
  2. 时序一致性优化

    • 提出创新的时序表示对齐(TREPA)技术
    • 使用大规模自监督视频模型提取时序特征
    • 有效提升生成视频的时序连贯性

完整工具链

LatentSync提供了一套完整的视频处理工具链:

  • 预处理工具

    • 视频帧率重采样(25fps)
    • 音频重采样(16000Hz)
    • 场景检测和分段处理
    • 人脸检测与对齐
  • 质量保证

    • 人脸尺寸和数量检查
    • 音画同步置信度评估
    • hyperIQA图像质量评分

广泛适用性

LatentSync展现出优秀的通用性:

  • 真人视频:能准确捕捉和重现真实人物的唇部动作
  • 动画角色:同样适用于动画人物的口型同步
  • 低资源要求:仅需约6.5GB显存即可运行推理

开源与社区

项目已在GitHub开源,提供:

  • 推理代码和预训练模型
  • 完整的数据处理流程
  • 训练代码和配置文件

应用前景

LatentSync的发布为视频制作领域带来新的可能:

  • 视频后期制作
  • 多语言配音本地化
  • 虚拟主播内容生成
  • 教育视频制作

参考链接