ByteDance lance OmniHuman : Nouveau Cadre de Génération d’Animation Humaine
L’équipe de recherche de ByteDance a récemment (3 février) lancé “OmniHuman-1”, un cadre de génération d’animation humaine. Cette recherche a été publiée dans l’article “OmniHuman-1: Rethinking the Scaling-Up of One-Stage Conditioned Human Animation Models”, démontrant les dernières avancées dans le domaine de la génération d’animation humaine.
- Page du Projet : https://omnihuman-lab.github.io/
Caractéristiques Principales d’OmniHuman
OmniHuman est un cadre multimodal de génération de vidéos humaines de bout en bout avec les caractéristiques suivantes :
- Entrées Simplifiées : Nécessite uniquement une image de personne et des signaux de mouvement (audio ou vidéo) pour générer des animations
- Support d’Entrée Flexible : Peut traiter des images de tout format, incluant portraits, mi-corps et corps entier
- Méthodes de Contrôle Variées : Prend en charge le contrôle par texte, audio, vidéo et autres moyens
- Performance Détaillée : Excellence dans les détails comme les mouvements des mains et la synchronisation labiale
Implémentation Technique
L’équipe a adopté une stratégie innovante d’entraînement à conditions mixtes :
- Utilise l’architecture DiT comme base, intégrant plusieurs capacités de traitement des signaux
- Conçoit le mécanisme Omni-Conditions, fusionnant les caractéristiques audio, pose et autres
- Emploie une méthode d’entraînement multi-étapes pour équilibrer différentes conditions
- Ensemble de données d’entraînement de 18,7K heures de données humaines
Applications Potentielles
Les scénarios d’application d’OmniHuman incluent :
- Production d’animateurs virtuels
- Performance d’humains numériques
- Création de contenu vidéo
- Avatars pour réunions à distance
État Actuel
Actuellement, OmniHuman n’est pas disponible au téléchargement ni en service. L’équipe de recherche indique que des mises à jour seront fournies ultérieurement.
Liens Utiles
- Page du Projet : https://omnihuman-lab.github.io/
- Lien de l’Article : OmniHuman-1: Rethinking the Scaling-Up of One-Stage Conditioned Human Animation Models