바이트댄스, USO 발표: 통합 스타일 및 주체 기반 이미지 생성 모델
2025. 08. 28.
바이트댄스, USO 발표: 통합 스타일 및 주체 기반 이미지 생성 모델
바이트댄스 인텔리전트 크리에이션 연구소 UXO 팀은 USO(Unified Style and Subject-Driven Generation) 모델을 발표했습니다. 이는 통합 스타일 및 주체 최적화된 맞춤형 생성 모델입니다. USO는 임의의 주체와 임의의 스타일을 자유롭게 조합하여 주체의 일관성을 유지하면서 고품질 스타일 전이 효과를 실현할 수 있습니다.
모델 특징
USO 모델은 기존 기술에서 스타일 기반과 주체 기반 생성 작업이 상호 대립하는 문제를 해결했습니다. 기존 방법은 종종 이 두 작업을 독립적인 작업으로 간주했습니다: 스타일 기반 생성은 스타일 유사성을 우선시하고, 주체 기반 생성은 주체 일관성을 강조하여 두 작업 간에 명확한 대립 관계가 발생했습니다.
USO는 통합 프레임워크를 통해 이 문제를 해결하며, 콘텐츠와 스타일의 분리 및 재조합을 핵심 목표로 합니다. 이 모델은 두 단계 학습 방법을 채택했습니다:
1단계: 스타일 정렬 학습을 통해 SigLIP 임베딩을 정렬하고, 스타일 능력을 갖춘 모델을 얻습니다 2단계: 조건 인코더를 분리하고 삼중 데이터에서 학습하여 결합 조건 생성을 실현합니다
핵심 기능
USO 모델은 다양한 생성 모드를 지원하며, 임의의 주체와 임의의 스타일을 자유롭게 조합할 수 있습니다:
주체 기반 생성
주체의 정체성 일관성을 유지하며, 인물, 물체 등 특정 주체의 스타일화에 적합합니다. 사용자는 특정 주체를 포함한 참조 이미지를 제공할 수 있으며, 모델은 해당 주체의 정체성 특징을 유지하면서 새로운 스타일이나 장면을 적용합니다.
아이덴티티 기반 생성
아이덴티티 특징을 유지하면서 스타일화 처리를 수행합니다. 이 모드는 특히 인물 초상화의 스타일화에 적합하며, 얼굴 특징, 표정, 아이덴티티 정보를 유지하면서 예술 스타일, 의상 또는 배경 환경을 변경할 수 있습니다.
스타일 기반 생성
고품질의 스타일 전이를 실현하여 참조 이미지의 스타일을 새로운 콘텐츠에 적용합니다. 사용자는 스타일 참조 이미지를 제공할 수 있으며, 모델은 이러한 예술 스타일을 텍스트 설명의 콘텐츠에 적용하여 특정 스타일의 새로운 이미지를 생성합니다.
멀티 스타일 혼합 생성
다양한 스타일의 융합 적용을 지원합니다. 사용자는 동시에 여러 다른 스타일의 참조 이미지를 제공할 수 있으며, 모델은 이러한 스타일 요소들을 융합하여 독특한 혼합 스타일 효과를 생성합니다.
스타일-주체 결합 생성
주체와 스타일을 동시에 제어하여 복잡한 창의적 표현을 실현합니다. 이 모드는 주체 기반과 스타일 기반의 장점을 결합하며, 사용자는 특정 주체를 지정하고 예술 스타일을 제어하여 더욱 정밀한 창의적 제어를 실현할 수 있습니다.
작동 원리
USO는 두 단계 학습 방법을 채택했습니다: 첫 번째 단계에서는 스타일 정렬 학습을 통해 SigLIP 임베딩을 정렬하여 스타일 능력을 갖춘 모델을 얻습니다; 두 번째 단계에서는 조건 인코더를 분리하고 삼중 데이터에서 학습하여 결합 조건 생성을 실현합니다. 마지막으로 스타일 보상 학습 패러다임을 통해 두 단계를 감독하여 더욱 강력한 통합 모델을 얻습니다.
다른 방법과의 비교
주체 기반 생성 비교
스타일 기반 생성 비교
아이덴티티 기반 생성 비교
스타일-주체 결합 생성 비교
데이터셋 및 학습
연구팀은 콘텐츠 이미지, 스타일 이미지 및 이에 해당하는 스타일화된 콘텐츠 이미지를 포함하는 대규모 삼중 데이터셋을 구축했습니다. 디커플링 학습 방식을 통해 모델은 스타일 정렬과 콘텐츠 스타일 디커플링 두 가지 목표를 동시에 처리할 수 있습니다.
성능 평가
실험 결과는 USO가 오픈소스 모델 중에서 주체 일관성과 스타일 유사성 두 차원에서 최고의 성능을 달성했음을 보여줍니다. 모델은 자연스럽고 플라스틱하지 않은 인물을 생성하면서도 높은 주체 일관성과 강력한 스타일 충실도를 유지할 수 있습니다.
연구팀은 또한 USO-Bench 벤치마크를 발표했습니다. 이는 스타일 유사성과 주체 충실도를 동시에 평가하는 최초의 다지표 벤치마크로, 관련 연구에 표준화된 평가 도구를 제공합니다.
오픈소스 및 사용
프로젝트 주소:
USO의 출시는 AI 이미지 생성 분야에 새로운 솔루션을 제공하며, 특히 스타일 전이와 주체 유지의 균형 측면에서 그러합니다. 이 모델의 오픈소스화는 관련 연구의 발전을 촉진하고 오픈소스 커뮤니티에 강력한 도구 지원을 제공할 것입니다.