ByteDanceがOmniHumanを発表：次世代人体アニメーション生成フレームワーク

ByteDanceの研究チームは最近（2月3日）、人体アニメーション生成フレームワーク「OmniHuman-1」を発表しました。この研究成果は論文「OmniHuman-1: Rethinking the Scaling-Up of One-Stage Conditioned Human Animation Models」で発表され、人体アニメーション生成分野における最新の進展を示しています。

プロジェクトページ：https://omnihuman-lab.github.io/

OmniHumanの主な特徴

OmniHumanはエンドツーエンドのマルチモーダル条件付き人体ビデオ生成フレームワークで、以下の特徴を持っています：

簡素化された入力要件：1枚の人物画像とモーション信号（音声やビデオなど）のみで人体アニメーションを生成可能
柔軟な入力対応：ポートレート、半身、全身など、あらゆるアスペクト比の入力画像に対応
多様な制御方法：テキスト、音声、ビデオなど、様々な方法で人物の動きを制御可能
細部の表現：手の動きや口の同期など、細部の表現が優れている

OmniHumanの技術実装

研究チームは革新的な混合条件学習戦略を採用しました：

DiTアーキテクチャを基盤とし、複数の制御信号処理能力を統合
Omni-Conditions機構を設計し、音声、ポーズなどの特徴を融合
段階的な学習方法を使用し、異なる条件のバランスを取る
学習データセットは人体関連データ18.7K時間を使用

OmniHumanの潜在的な応用分野

OmniHumanの応用シーンには以下が含まれます：

バーチャルキャスター制作
デジタルヒューマンパフォーマンス
ビデオコンテンツ制作
リモート会議アバター

OmniHumanの現状

現在、OmniHumanはダウンロードやサービス提供を行っていません。研究チームは今後さらなる更新を提供する予定としています。

RunComfy

Comfy Deploy

Comfy Online

Comfy.ICU

InstaSD

ComfyUIがサブグラフ機能を正式リリース

ByteDanceがOmniHumanを発表：次世代人体アニメーション生成フレームワーク

OmniHumanの主な特徴

OmniHumanの技術実装

OmniHumanの潜在的な応用分野

OmniHumanの現状

関連リソースリンク