字节跳动发布 OmniHuman：新一代人体动画生成框架

字节跳动研究团队近期（2月3日）发布了名为”OmniHuman-1”的人体动画生成框架。这项研究成果发表于论文《OmniHuman-1: Rethinking the Scaling-Up of One-Stage Conditioned Human Animation Models》，展示了在人体动画生成领域的最新进展。

项目主页：https://omnihuman-lab.github.io/

OmniHuman 的主要特点

OmniHuman 是一个端到端的多模态条件人体视频生成框架，具有以下特点：

简化的输入要求：仅需一张人物图片和动作信号（如音频或视频），即可生成人体动画
灵活的输入支持：可处理任意比例的输入图像，包括肖像、半身像和全身像
多样的驱动方式：支持通过文本、音频、视频等多种方式驱动人物动作
细节表现：在手部动作、唇形同步等细节方面有良好表现

关于 OmniHuman 的技术实现

研究团队采用了创新的混合条件训练策略：

采用 DiT 架构作为基础，整合多种驱动信号处理能力
设计 Omni-Conditions 机制，融合音频、姿态等特征
使用分阶段训练方法，平衡不同条件的影响
训练数据规模达到 18.7K 小时的人体相关数据

OmniHuman 潜在应用方向

OmniHuman 的应用场景包括：

虚拟主播制作
数字人表演
视频内容创作
远程会议头像

OmniHuman 的当前状态

目前，OmniHuman 尚未开放下载或提供相关服务。研究团队表示将在后续提供更多相关更新。

ByteDance发布Sa2VA：首个图像视频统一理解模型

字节跳动发布 OmniHuman：新一代人体动画生成框架

OmniHuman 的主要特点

关于 OmniHuman 的技术实现

OmniHuman 潜在应用方向

OmniHuman 的当前状态

相关资源链接