Tencent открывает исходный код модели цифрового человека с речевым управлением HunyuanVideo-Avatar

HunyuanVideo-Avatar

Команда Hunyuan от Tencent недавно открыла исходный код модели цифрового человека с речевым управлением HunyuanVideo-Avatar. Эта модель может автоматически генерировать естественные и плавные видео цифрового человека из одного портретного изображения и аудио клипа, заставляя персонажа на изображении говорить или петь. Будь то для создания коротких видео, рекламы электронной коммерции или виртуальных ведущих, HunyuanVideo-Avatar предоставляет удобный опыт генерации видео цифрового человека для создателей контента и бизнеса.

Видео демонстрации

Многосценная женская соло:

Пример многосценного диалога:

Демонстрация многостилевого персонажа:

Ключевые особенности

Динамическая генерация видео из одного изображения и аудио: Пользователям нужно только загрузить портретное изображение и аудио клип. Модель автоматически понимает контент и генерирует естественные видео говорения или пения, включая мимику, синхронизацию губ и движения всего тела.
Высокая точность и динамическая производительность: Поддерживает высококачественные, динамические видео цифрового человека, охватывающие движения головы, половины тела и всего тела.
Поддержка многостилевых, многовидовых и двухперсональных сценариев: Не только поддерживает реальных людей, но также может генерировать динамические видео в различных художественных стилях (таких как аниме, живопись тушью) и разных видах (таких как роботы, животные), поддерживая многоперсональное взаимодействие.
Перенос и контроль эмоций: Может извлекать эмоциональные сигналы из референсных изображений и переносить их в сгенерированное видео, обеспечивая детальный контроль эмоционального стиля.
Согласованность персонажа: Через модуль инъекции изображения персонажа обеспечивает высокую согласованность и естественную динамику персонажа в сгенерированном видео.
Лицевая адаптация аудио: В многоперсональных сценариях использует лицевую адаптер аудио для независимого аудио управления, поддерживая многоперсональные диалоги.

Сценарии применения

Прямые трансляции электронной коммерции: Цифровые человеческие ведущие представляют продукты, улучшая интерактивный опыт.
Онлайн стриминг: Создание контента виртуальных ведущих и виртуальных идолов.
Видео в социальных сетях: Индивидуальные лица и создатели могут легко делать увлекательные короткие видео цифрового человека.
Создание и редактирование контента: Предоставляет инструменты генерации динамического видео для областей как аниме и игры.
Активация культурного наследия: Оживляет исторические фигуры и артефакты как цифровых людей.

OpenMOSS выпускает MOVA - модель синхронизированной генерации видео и аудио с открытым исходным кодом

Tencent открывает исходный код модели цифрового человека с речевым управлением HunyuanVideo-Avatar

Видео демонстрации

Ключевые особенности

Сценарии применения

Связанные ссылки