字节跳动开源LatentSync - 基于扩散模型的高精度口型同步技术

最后更新：2025年1月4日ComfyUI Wikinews

字节跳动发布开源口型同步工具LatentSync，基于音频条件潜空间扩散模型，可实现真人和动画角色的精准口型同步，并解决了传统方法中的画面跳动问题

字节跳动近日在GitHub上开源了一款创新的口型同步工具——LatentSync。这是一个基于音频条件潜空间扩散模型的端到端口型同步框架，不仅能实现高精度的音画同步，还解决了传统方法中常见的画面跳动问题。

技术创新

LatentSync的主要技术创新包括：

端到端的潜空间扩散模型
- 无需中间动作表示
- 直接在潜空间中建模复杂的音视频关联
- 充分利用Stable Diffusion的强大性能
时序一致性优化
- 提出创新的时序表示对齐（TREPA）技术
- 使用大规模自监督视频模型提取时序特征
- 有效提升生成视频的时序连贯性

完整工具链

LatentSync提供了一套完整的视频处理工具链：

预处理工具
- 视频帧率重采样（25fps）
- 音频重采样（16000Hz）
- 场景检测和分段处理
- 人脸检测与对齐
质量保证
- 人脸尺寸和数量检查
- 音画同步置信度评估
- hyperIQA图像质量评分

广泛适用性

LatentSync展现出优秀的通用性：

真人视频：能准确捕捉和重现真实人物的唇部动作
动画角色：同样适用于动画人物的口型同步
低资源要求：仅需约6.5GB显存即可运行推理

开源与社区

项目已在GitHub开源，提供：

推理代码和预训练模型
完整的数据处理流程
训练代码和配置文件

应用前景

LatentSync的发布为视频制作领域带来新的可能：

视频后期制作
多语言配音本地化
虚拟主播内容生成
教育视频制作

参考链接

评论

使用 GitHub 登录后即可参与讨论。

评论加载中…

字节跳动开源LatentSync - 基于扩散模型的高精度口型同步技术 | ComfyUI Wiki