Skip to content
ComfyUI Wiki
帮助构建更好的 ComfyUI 知识库 成为赞助者
新闻InfiniteTalk开源发布 - 支持无限长度的音频驱动视频生成技术

InfiniteTalk开源发布 - 支持无限长度的音频驱动视频生成技术

InfiniteTalk Demo

MeiGen-AI团队近日开源了InfiniteTalk模型,这是一个支持无限长度音频驱动视频生成的开源项目。该技术不仅能够实现精准的唇形同步,还能保持稳定的身体动作和面部表情,为数字人技术领域带来了重要突破。

技术特点

InfiniteTalk采用稀疏帧视频配音框架,相比传统的仅关注嘴唇同步的方法,该技术具有以下显著优势:

  • 精准唇形同步:实现与音频的精确口型匹配
  • 无限长度生成:支持超长视频内容的生成
  • 全身动作同步:不仅同步嘴唇,还同步头部、身体和表情
  • 身份保持稳定:在长时间生成过程中保持人物身份的一致性
  • 多场景支持:支持图像到视频和视频到视频的转换

核心功能

音频驱动视频生成

InfiniteTalk能够根据输入的音频文件,生成与之同步的视频内容。无论是说话还是唱歌,都能实现自然的唇形同步效果。

无限长度支持

该技术突破了传统视频生成的长度限制,理论上可以生成任意长度的视频内容,特别适合制作长时间的数字人讲解视频。

多分辨率支持

模型支持480P和720P两种分辨率,用户可以根据需求选择合适的输出质量。

技术架构

InfiniteTalk基于Wan2.1模型构建,通过创新的稀疏帧处理技术,实现了高效的视频生成。模型采用上下文窗口机制,默认设置81帧的上下文窗口,这是实现无限生成的关键技术。

开源信息

InfiniteTalk项目已在GitHub上开源,采用Apache 2.0许可证。项目包含完整的模型权重、代码实现和使用文档,为研究者和开发者提供了完整的解决方案。

相关链接