ComfyUI 挑战赛 #1:参与即有机会赢取100美元
2025/08/21
InfiniteTalk开源发布 - 支持无限长度的音频驱动视频生成技术
InfiniteTalk Demo
MeiGen-AI团队近日开源了InfiniteTalk模型,这是一个支持无限长度音频驱动视频生成的开源项目。该技术不仅能够实现精准的唇形同步,还能保持稳定的身体动作和面部表情,为数字人技术领域带来了重要突破。
技术特点
InfiniteTalk采用稀疏帧视频配音框架,相比传统的仅关注嘴唇同步的方法,该技术具有以下显著优势:
- 精准唇形同步:实现与音频的精确口型匹配
- 无限长度生成:支持超长视频内容的生成
- 全身动作同步:不仅同步嘴唇,还同步头部、身体和表情
- 身份保持稳定:在长时间生成过程中保持人物身份的一致性
- 多场景支持:支持图像到视频和视频到视频的转换
核心功能
音频驱动视频生成
InfiniteTalk能够根据输入的音频文件,生成与之同步的视频内容。无论是说话还是唱歌,都能实现自然的唇形同步效果。
无限长度支持
该技术突破了传统视频生成的长度限制,理论上可以生成任意长度的视频内容,特别适合制作长时间的数字人讲解视频。
多分辨率支持
模型支持480P和720P两种分辨率,用户可以根据需求选择合适的输出质量。
技术架构
InfiniteTalk基于Wan2.1模型构建,通过创新的稀疏帧处理技术,实现了高效的视频生成。模型采用上下文窗口机制,默认设置81帧的上下文窗口,这是实现无限生成的关键技术。
开源信息
InfiniteTalk项目已在GitHub上开源,采用Apache 2.0许可证。项目包含完整的模型权重、代码实现和使用文档,为研究者和开发者提供了完整的解决方案。