Skip to content
더 나은 ComfyUI 지식베이스 구축을 돕기 후원자 되기
새소식2025 05 08 Flexiact Flexible Action Control

title: “FlexiAct: 이질적 시나리오에서의 유연한 동작 제어” description: “칭화대학교와 텐센트 ARC 연구소가 공동으로 개발한 FlexiAct 기술은 참조 비디오의 동작을 모든 대상 이미지로 전송하면서 신원 일관성을 유지할 수 있습니다” tag: AI, video-generation, action-control, image-to-video date: 2025-05-08

FlexiAct: 이질적 시나리오에서의 유연한 동작 제어

칭화대학교와 텐센트 ARC 연구소의 연구팀이 최근 FlexiAct라는 새로운 기술을 발표했습니다. 이 기술은 참조 비디오의 동작을 모든 대상 이미지로 전송할 수 있으며, 레이아웃, 시점, 골격 구조가 다른 경우에도 좋은 결과를 유지합니다. 이 기술은 SIGGRAPH 2025에 채택되었습니다.

FlexiAct 방법 개요

기술적 배경

동작 커스터마이징은 입력 제어 신호에 의해 지시된 동작을 주체가 수행하는 비디오를 생성하는 것을 의미합니다. 현재 방법은 주로 포즈 안내 또는 글로벌 모션 커스터마이징을 사용하지만, 공간 구조(레이아웃, 골격, 시점 일관성 등)에 의해 엄격하게 제약되어 다양한 주체와 시나리오에 적응하기 어렵습니다.

기술 혁신

FlexiAct는 기존 기술의 한계를 극복하여 다음을 달성합니다:

  1. 정밀한 동작 제어
  2. 공간 구조 적응
  3. 신원 일관성 유지

이 기술은 두 가지 핵심 구성 요소를 중심으로 구축되었습니다:

  • RefAdapter: 공간 적응과 일관성 유지에 뛰어난 경량 이미지 조건부 어댑터로, 외관 일관성과 구조적 유연성의 균형을 맞춥니다.

  • FAE(주파수 인식 동작 추출): 연구팀의 관찰에 따르면, 노이즈 제거 과정은 다른 타임스텝에서 움직임(저주파)과 외관 세부 사항(고주파)에 대한 다양한 수준의 주의를 보입니다. FAE는 별도의 시공간 아키텍처에 의존하지 않고 노이즈 제거 과정 중 직접 동작 추출을 달성합니다.

기존 방법과 비교하여 FlexiAct는 이질적 시나리오에서 상당한 성능 이점을 보여줍니다:

성능 비교

응용 시나리오

FlexiAct는 다양한 시나리오에 널리 적용될 수 있습니다:

  • 인간 동작 전송: 인간 동작을 게임 캐릭터나 만화 캐릭터로 전송
  • 동물 애니메이션 생성: 동물 이미지에 동적 동작 추가
  • 카메라 동적 효과: 다양한 카메라 관점에서 동적 효과 생성
  • 교차 도메인 동작 마이그레이션: 인간 동작을 동물에 적용하는 등 다른 종 간의 동작 마이그레이션 구현

데이터 및 모델

연구팀은 이 작업을 위해 다양한 동작 유형을 포함하는 전용 데이터셋을 구축했습니다:

  • 인간 동작: 걷기, 쪼그려 앉기, 점프 등
  • 동물 동작: 달리기, 점프, 서있기 등
  • 카메라 동작: 전진 이동, 회전, 줌 등

FlexiAct는 CogVideoX-5B 모델을 기반으로 개발되어 고품질 동작 전송 효과를 달성합니다.

오픈 소스 리소스

연구팀은 다음과 같은 관련 리소스를 오픈 소스로 제공했습니다:

  • FlexiAct 사전 훈련 모델(CogVideoX-5B 기반)
  • 훈련 및 테스트용 데이터셋
  • 훈련 및 추론용 코드
  • 상세한 지침 및 예제

향후 계획

프로젝트 업데이트 로그에 따르면, 연구팀은 다음을 계획하고 있습니다:

  • 훈련 및 추론 코드 릴리스
  • FlexiAct 체크포인트(CogVideoX-5B 기반) 릴리스
  • 훈련 데이터 릴리스
  • Gradio 데모 릴리스

관련 링크