ByteDanceがOmniHumanを発表:次世代人体アニメーション生成フレームワーク
ByteDanceの研究チームは最近(2月3日)、人体アニメーション生成フレームワーク「OmniHuman-1」を発表しました。この研究成果は論文「OmniHuman-1: Rethinking the Scaling-Up of One-Stage Conditioned Human Animation Models」で発表され、人体アニメーション生成分野における最新の進展を示しています。
- プロジェクトページ:https://omnihuman-lab.github.io/
OmniHumanの主な特徴
OmniHumanはエンドツーエンドのマルチモーダル条件付き人体ビデオ生成フレームワークで、以下の特徴を持っています:
- 簡素化された入力要件:1枚の人物画像とモーション信号(音声やビデオなど)のみで人体アニメーションを生成可能
- 柔軟な入力対応:ポートレート、半身、全身など、あらゆるアスペクト比の入力画像に対応
- 多様な制御方法:テキスト、音声、ビデオなど、様々な方法で人物の動きを制御可能
- 細部の表現:手の動きや口の同期など、細部の表現が優れている
OmniHumanの技術実装
研究チームは革新的な混合条件学習戦略を採用しました:
- DiTアーキテクチャを基盤とし、複数の制御信号処理能力を統合
- Omni-Conditions機構を設計し、音声、ポーズなどの特徴を融合
- 段階的な学習方法を使用し、異なる条件のバランスを取る
- 学習データセットは人体関連データ18.7K時間を使用
OmniHumanの潜在的な応用分野
OmniHumanの応用シーンには以下が含まれます:
- バーチャルキャスター制作
- デジタルヒューマンパフォーマンス
- ビデオコンテンツ制作
- リモート会議アバター
OmniHumanの現状
現在、OmniHumanはダウンロードやサービス提供を行っていません。研究チームは今後さらなる更新を提供する予定としています。
関連リソースリンク
- プロジェクトページ:https://omnihuman-lab.github.io/
- 論文リンク:OmniHuman-1: Rethinking the Scaling-Up of One-Stage Conditioned Human Animation Models