字节跳动发布 OmniHuman:新一代人体动画生成框架
字节跳动研究团队近期(2月3日)发布了名为”OmniHuman-1”的人体动画生成框架。这项研究成果发表于论文《OmniHuman-1: Rethinking the Scaling-Up of One-Stage Conditioned Human Animation Models》,展示了在人体动画生成领域的最新进展。
OmniHuman 的主要特点
OmniHuman 是一个端到端的多模态条件人体视频生成框架,具有以下特点:
- 简化的输入要求:仅需一张人物图片和动作信号(如音频或视频),即可生成人体动画
- 灵活的输入支持:可处理任意比例的输入图像,包括肖像、半身像和全身像
- 多样的驱动方式:支持通过文本、音频、视频等多种方式驱动人物动作
- 细节表现:在手部动作、唇形同步等细节方面有良好表现
关于 OmniHuman 的技术实现
研究团队采用了创新的混合条件训练策略:
- 采用 DiT 架构作为基础,整合多种驱动信号处理能力
- 设计 Omni-Conditions 机制,融合音频、姿态等特征
- 使用分阶段训练方法,平衡不同条件的影响
- 训练数据规模达到 18.7K 小时的人体相关数据
OmniHuman 潜在应用方向
OmniHuman 的应用场景包括:
- 虚拟主播制作
- 数字人表演
- 视频内容创作
- 远程会议头像
OmniHuman 的当前状态
目前,OmniHuman 尚未开放下载或提供相关服务。研究团队表示将在后续提供更多相关更新。
相关资源链接
- 项目主页:https://omnihuman-lab.github.io/
- 论文链接:OmniHuman-1: Rethinking the Scaling-Up of One-Stage Conditioned Human Animation Models