Skip to content
ComfyUI Wiki
더 나은 ComfyUI 지식베이스 구축을 돕기 후원자 되기
새소식바이트댄스, USO 발표: 통합 스타일 및 주체 기반 이미지 생성 모델

바이트댄스, USO 발표: 통합 스타일 및 주체 기반 이미지 생성 모델

USO 모델 시연

바이트댄스 인텔리전트 크리에이션 연구소 UXO 팀은 USO(Unified Style and Subject-Driven Generation) 모델을 발표했습니다. 이는 통합 스타일 및 주체 최적화된 맞춤형 생성 모델입니다. USO는 임의의 주체와 임의의 스타일을 자유롭게 조합하여 주체의 일관성을 유지하면서 고품질 스타일 전이 효과를 실현할 수 있습니다.

모델 특징

USO 모델은 기존 기술에서 스타일 기반과 주체 기반 생성 작업이 상호 대립하는 문제를 해결했습니다. 기존 방법은 종종 이 두 작업을 독립적인 작업으로 간주했습니다: 스타일 기반 생성은 스타일 유사성을 우선시하고, 주체 기반 생성은 주체 일관성을 강조하여 두 작업 간에 명확한 대립 관계가 발생했습니다.

USO는 통합 프레임워크를 통해 이 문제를 해결하며, 콘텐츠와 스타일의 분리 및 재조합을 핵심 목표로 합니다. 이 모델은 두 단계 학습 방법을 채택했습니다:

1단계: 스타일 정렬 학습을 통해 SigLIP 임베딩을 정렬하고, 스타일 능력을 갖춘 모델을 얻습니다 2단계: 조건 인코더를 분리하고 삼중 데이터에서 학습하여 결합 조건 생성을 실현합니다

핵심 기능

USO 모델은 다양한 생성 모드를 지원하며, 임의의 주체와 임의의 스타일을 자유롭게 조합할 수 있습니다:

주체 기반 생성

주체의 정체성 일관성을 유지하며, 인물, 물체 등 특정 주체의 스타일화에 적합합니다. 사용자는 특정 주체를 포함한 참조 이미지를 제공할 수 있으며, 모델은 해당 주체의 정체성 특징을 유지하면서 새로운 스타일이나 장면을 적용합니다.

아이덴티티 기반 생성

아이덴티티 특징을 유지하면서 스타일화 처리를 수행합니다. 이 모드는 특히 인물 초상화의 스타일화에 적합하며, 얼굴 특징, 표정, 아이덴티티 정보를 유지하면서 예술 스타일, 의상 또는 배경 환경을 변경할 수 있습니다.

스타일 기반 생성

고품질의 스타일 전이를 실현하여 참조 이미지의 스타일을 새로운 콘텐츠에 적용합니다. 사용자는 스타일 참조 이미지를 제공할 수 있으며, 모델은 이러한 예술 스타일을 텍스트 설명의 콘텐츠에 적용하여 특정 스타일의 새로운 이미지를 생성합니다.

멀티 스타일 혼합 생성

다양한 스타일의 융합 적용을 지원합니다. 사용자는 동시에 여러 다른 스타일의 참조 이미지를 제공할 수 있으며, 모델은 이러한 스타일 요소들을 융합하여 독특한 혼합 스타일 효과를 생성합니다.

스타일-주체 결합 생성

주체와 스타일을 동시에 제어하여 복잡한 창의적 표현을 실현합니다. 이 모드는 주체 기반과 스타일 기반의 장점을 결합하며, 사용자는 특정 주체를 지정하고 예술 스타일을 제어하여 더욱 정밀한 창의적 제어를 실현할 수 있습니다.

작동 원리

USO 작동 원리도

USO는 두 단계 학습 방법을 채택했습니다: 첫 번째 단계에서는 스타일 정렬 학습을 통해 SigLIP 임베딩을 정렬하여 스타일 능력을 갖춘 모델을 얻습니다; 두 번째 단계에서는 조건 인코더를 분리하고 삼중 데이터에서 학습하여 결합 조건 생성을 실현합니다. 마지막으로 스타일 보상 학습 패러다임을 통해 두 단계를 감독하여 더욱 강력한 통합 모델을 얻습니다.

다른 방법과의 비교

주체 기반 생성 비교

주체 기반 생성 비교

스타일 기반 생성 비교

스타일 기반 생성 비교

아이덴티티 기반 생성 비교

아이덴티티 기반 생성 비교

스타일-주체 결합 생성 비교

스타일-주체 결합 생성 비교

데이터셋 및 학습

연구팀은 콘텐츠 이미지, 스타일 이미지 및 이에 해당하는 스타일화된 콘텐츠 이미지를 포함하는 대규모 삼중 데이터셋을 구축했습니다. 디커플링 학습 방식을 통해 모델은 스타일 정렬과 콘텐츠 스타일 디커플링 두 가지 목표를 동시에 처리할 수 있습니다.

성능 평가

실험 결과는 USO가 오픈소스 모델 중에서 주체 일관성과 스타일 유사성 두 차원에서 최고의 성능을 달성했음을 보여줍니다. 모델은 자연스럽고 플라스틱하지 않은 인물을 생성하면서도 높은 주체 일관성과 강력한 스타일 충실도를 유지할 수 있습니다.

연구팀은 또한 USO-Bench 벤치마크를 발표했습니다. 이는 스타일 유사성과 주체 충실도를 동시에 평가하는 최초의 다지표 벤치마크로, 관련 연구에 표준화된 평가 도구를 제공합니다.

오픈소스 및 사용

프로젝트 주소:

USO의 출시는 AI 이미지 생성 분야에 새로운 솔루션을 제공하며, 특히 스타일 전이와 주체 유지의 균형 측면에서 그러합니다. 이 모델의 오픈소스화는 관련 연구의 발전을 촉진하고 오픈소스 커뮤니티에 강력한 도구 지원을 제공할 것입니다.