Skip to content
帮助构建更好的 ComfyUI 知识库 成为赞助者
新闻字节跳动发布 OmniHuman:新一代人体动画生成框架

字节跳动发布 OmniHuman:新一代人体动画生成框架

字节跳动研究团队近期(2月3日)发布了名为”OmniHuman-1”的人体动画生成框架。这项研究成果发表于论文《OmniHuman-1: Rethinking the Scaling-Up of One-Stage Conditioned Human Animation Models》,展示了在人体动画生成领域的最新进展。

OmniHuman 的主要特点

OmniHuman 是一个端到端的多模态条件人体视频生成框架,具有以下特点:

  • 简化的输入要求:仅需一张人物图片和动作信号(如音频或视频),即可生成人体动画
  • 灵活的输入支持:可处理任意比例的输入图像,包括肖像、半身像和全身像
  • 多样的驱动方式:支持通过文本、音频、视频等多种方式驱动人物动作
  • 细节表现:在手部动作、唇形同步等细节方面有良好表现

关于 OmniHuman 的技术实现

研究团队采用了创新的混合条件训练策略:

  1. 采用 DiT 架构作为基础,整合多种驱动信号处理能力
  2. 设计 Omni-Conditions 机制,融合音频、姿态等特征
  3. 使用分阶段训练方法,平衡不同条件的影响
  4. 训练数据规模达到 18.7K 小时的人体相关数据

OmniHuman 潜在应用方向

OmniHuman 的应用场景包括:

  • 虚拟主播制作
  • 数字人表演
  • 视频内容创作
  • 远程会议头像

OmniHuman 的当前状态

目前,OmniHuman 尚未开放下载或提供相关服务。研究团队表示将在后续提供更多相关更新。

相关资源链接