Skip to content
ComfyUI Wiki
Помогите создать лучшую базу знаний ComfyUI Стать спонсором
НовостиTencent открывает исходный код модели цифрового человека с речевым управлением HunyuanVideo-Avatar: генерация естественных видео цифрового человека из одного изображения и аудио

Tencent открывает исходный код модели цифрового человека с речевым управлением HunyuanVideo-Avatar

HunyuanVideo-Avatar

Команда Hunyuan от Tencent недавно открыла исходный код модели цифрового человека с речевым управлением HunyuanVideo-Avatar. Эта модель может автоматически генерировать естественные и плавные видео цифрового человека из одного портретного изображения и аудио клипа, заставляя персонажа на изображении говорить или петь. Будь то для создания коротких видео, рекламы электронной коммерции или виртуальных ведущих, HunyuanVideo-Avatar предоставляет удобный опыт генерации видео цифрового человека для создателей контента и бизнеса.

Видео демонстрации

  • Многосценная женская соло:
  • Пример многосценного диалога:
  • Демонстрация многостилевого персонажа:

Ключевые особенности

  • Динамическая генерация видео из одного изображения и аудио: Пользователям нужно только загрузить портретное изображение и аудио клип. Модель автоматически понимает контент и генерирует естественные видео говорения или пения, включая мимику, синхронизацию губ и движения всего тела.
  • Высокая точность и динамическая производительность: Поддерживает высококачественные, динамические видео цифрового человека, охватывающие движения головы, половины тела и всего тела.
  • Поддержка многостилевых, многовидовых и двухперсональных сценариев: Не только поддерживает реальных людей, но также может генерировать динамические видео в различных художественных стилях (таких как аниме, живопись тушью) и разных видах (таких как роботы, животные), поддерживая многоперсональное взаимодействие.
  • Перенос и контроль эмоций: Может извлекать эмоциональные сигналы из референсных изображений и переносить их в сгенерированное видео, обеспечивая детальный контроль эмоционального стиля.
  • Согласованность персонажа: Через модуль инъекции изображения персонажа обеспечивает высокую согласованность и естественную динамику персонажа в сгенерированном видео.
  • Лицевая адаптация аудио: В многоперсональных сценариях использует лицевую адаптер аудио для независимого аудио управления, поддерживая многоперсональные диалоги.

Сценарии применения

  • Прямые трансляции электронной коммерции: Цифровые человеческие ведущие представляют продукты, улучшая интерактивный опыт.
  • Онлайн стриминг: Создание контента виртуальных ведущих и виртуальных идолов.
  • Видео в социальных сетях: Индивидуальные лица и создатели могут легко делать увлекательные короткие видео цифрового человека.
  • Создание и редактирование контента: Предоставляет инструменты генерации динамического видео для областей как аниме и игры.
  • Активация культурного наследия: Оживляет исторические фигуры и артефакты как цифровых людей.

Связанные ссылки