ByteDance, OmniHuman 발표: 차세대 인체 애니메이션 생성 프레임워크
ByteDance 연구팀이 최근(2월 3일) “OmniHuman-1”이라는 인체 애니메이션 생성 프레임워크를 발표했습니다. 이 연구 성과는 논문 “OmniHuman-1: Rethinking the Scaling-Up of One-Stage Conditioned Human Animation Models”에서 발표되었으며, 인체 애니메이션 생성 분야의 최신 발전을 보여주고 있습니다.
- 프로젝트 페이지: https://omnihuman-lab.github.io/
OmniHuman의 주요 특징
OmniHuman은 엔드투엔드 멀티모달 조건부 인체 비디오 생성 프레임워크로, 다음과 같은 특징을 가지고 있습니다:
- 단순화된 입력 요구사항: 단 하나의 인물 이미지와 모션 신호(오디오 또는 비디오)만으로 인체 애니메이션 생성 가능
- 유연한 입력 지원: 초상화, 반신, 전신 등 모든 비율의 입력 이미지 처리 가능
- 다양한 구동 방식: 텍스트, 오디오, 비디오 등 다양한 방식으로 인물 동작 구동 지원
- 세부 표현: 손동작, 입술 동기화 등 세부적인 표현이 우수함
OmniHuman의 기술 구현
연구팀은 혁신적인 혼합 조건 학습 전략을 채택했습니다:
- DiT 아키텍처를 기반으로 다양한 구동 신호 처리 능력 통합
- Omni-Conditions 메커니즘을 설계하여 오디오, 자세 등의 특징 융합
- 단계별 학습 방법을 사용하여 서로 다른 조건의 균형 유지
- 학습 데이터 규모는 18.7K 시간의 인체 관련 데이터 사용
OmniHuman의 잠재적 응용 분야
OmniHuman의 응용 시나리오는 다음과 같습니다:
- 가상 진행자 제작
- 디지털 휴먼 퍼포먼스
- 비디오 콘텐츠 제작
- 원격 회의 아바타
OmniHuman의 현재 상태
현재 OmniHuman은 다운로드나 관련 서비스를 제공하지 않고 있습니다. 연구팀은 추후 더 많은 업데이트를 제공할 예정이라고 밝혔습니다.
관련 리소스 링크
- 프로젝트 페이지: https://omnihuman-lab.github.io/
- 논문 링크: OmniHuman-1: Rethinking the Scaling-Up of One-Stage Conditioned Human Animation Models