Открытый выпуск InfiniteTalk - Технология генерации видео на основе аудио с поддержкой неограниченной длины
Команда MeiGen-AI недавно открыла с открытым исходным кодом модель InfiniteTalk - инновационный проект, который позволяет генерировать видео на основе аудио с поддержкой неограниченной длины. Эта технология обеспечивает не только точную синхронизацию губ, но и стабильные движения тела и выражения лица, что является значительным прорывом в технологии цифровых людей.
Ключевые особенности
InfiniteTalk использует рамку дубляжа видео с разреженными кадрами. По сравнению с традиционными методами, которые сосредотачиваются только на синхронизации губ, эта технология предлагает несколько заметных преимуществ:
- Точная синхронизация губ: Точное совпадение формы рта с аудио
- Генерация неограниченной длины: Поддержка генерации ультра-длинного видеоконтента
- Синхронизация полного телодвижения: Синхронизация головы, тела и выражений лица в дополнение к губам
- Стабильное сохранение идентичности: Поддержание согласованности идентичности персонажа во время длительной генерации
- Многосценарная поддержка: Совместимость с преобразованием изображения в видео и видео в видео
Основная функциональность
Генерация видео на основе аудио
InfiniteTalk может генерировать видеоконтент, синхронизированный с входными аудиофайлами. Будь то речь или пение, он создает естественные эффекты синхронизации губ.
Поддержка неограниченной длины
Эта технология преодолевает традиционные ограничения длины генерации видео, теоретически позволяя создавать видео любой длины. Особенно подходит для создания длительных видео с объяснениями цифровых людей.
Многоразрешающая поддержка
Модель поддерживает разрешения 480P и 720P, позволяя пользователям выбирать подходящее качество вывода в зависимости от их потребностей.
Техническая архитектура
InfiniteTalk построен на основе модели Wan2.1, используя инновационную технологию обработки разреженных кадров для эффективной генерации видео. Модель использует механизм контекстного окна с настройкой по умолчанию 81 кадр для контекстного окна, что является ключевой технологией, позволяющей бесконечную генерацию.
Информация об открытом исходном коде
Проект InfiniteTalk был открыт с открытым исходным кодом на GitHub под лицензией Apache 2.0. Проект включает полные веса модели, реализацию кода и документацию, предоставляя исследователям и разработчикам комплексное решение.