Skip to content
더 나은 ComfyUI 지식베이스 구축을 돕기 후원자 되기
새소식바이트댄스, UNO 출시: 적은 것에서 많은 것으로 생성 능력 확장

바이트댄스, UNO 출시: 적은 것에서 많은 것으로 생성 능력 확장

바이트댄스 창의적 인텔리전스 팀이 최근 “Less-to-More Generalization(적은 것에서 많은 것으로의 일반화)“를 핵심 개념으로 하는 범용 이미지 생성 프레임워크 ‘UNO’를 출시했습니다. 이 프레임워크는 맥락 내 생성을 통해 더 많은 제어 가능성을 열어주며, 단일 주체에서 다중 주체까지 고품질 이미지 생성을 실현합니다.

UNO 프레임워크는 콘텐츠 제작자에게 더 유연하고 강력한 도구를 제공하여 복잡한 장면에서 다중 객체의 특성을 유지하면서 정밀한 제어를 가능하게 하여, AI가 생성한 이미지가 제작자의 의도에 더 부합하도록 합니다.

UNO 모델 시연

해결된 핵심 과제

전통적인 AI 이미지 생성 모델은 여러 특정 객체가 있는 장면을 처리할 때 두 가지 주요 과제에 직면합니다:

  1. 데이터 확장성 문제: 단일 주체 데이터셋에서 다중 주체 데이터셋으로의 확장이 특히 어려우며, 고품질의 다각도 및 주체 일관성을 갖춘 쌍 데이터를 대규모로 획득하기 어려움
  2. 주체 확장성 문제: 기존 방법은 주로 단일 주체 생성에 초점을 맞추고 있어 다중 주체 시나리오의 복잡한 요구 사항에 적응하기 어려움

UNO는 독특한 접근 방식을 통해 이러한 문제를 해결하여 더 일관되고 제어 가능한 이미지 생성 결과를 달성했습니다.

기술 원리 설명

UNO 프레임워크는 두 가지 핵심 기술 혁신을 도입했습니다:

  • 점진적 교차 모달 정렬: 두 단계의 훈련 전략

    • 첫 번째 단계: 맥락 내 생성된 단일 주체 데이터를 사용하여 사전 훈련된 T2I 모델을 미세 조정하여 S2I(Subject-to-Image) 모델로 변환
    • 두 번째 단계: 생성된 다중 주체 데이터 쌍을 사용하여 추가 훈련, 복잡한 장면 처리 능력 향상
  • 범용 회전 위치 임베딩(UnoPE): 시각적 주체 제어를 확장할 때 발생하는 속성 혼동 문제를 효과적으로 해결하는 특수 위치 인코딩 기술로, 모델이 여러 주체의 특성을 정확하게 구분하고 유지할 수 있게 함

UNO 간단한 사례 시연

고일관성 데이터 합성 파이프라인

UNO의 주요 혁신 중 하나는 고일관성 데이터 합성 파이프라인입니다:

  • 확산 트랜스포머의 내재적 맥락 생성 능력 활용: 현재 확산 모델의 잠재력을 최대한 활용
  • 고일관성 다중 주체 쌍 데이터 생성: 특정 데이터 생성 전략을 통해 훈련 데이터의 품질과 일관성 보장
  • 반복적 훈련 과정: 텍스트에서 이미지로의 모델에서 다중 이미지 조건을 처리하는 복잡한 모델로 점진적으로 발전

이 접근 방식은 데이터 획득의 어려움을 해결할 뿐만 아니라 생성 결과의 품질과 일관성도a 향상시킵니다.

실제 응용 시나리오

UNO 모델은 다양한 실용적 능력을 보여주며, 다음과 같은 용도에 적용될 수 있습니다:

  • 다중 주체 맞춤 생성: 동일한 장면에 여러 특정 객체를 배치하면서 각각의 특성 유지
  • 가상 피팅 및 제품 전시: 다양한 환경에서 특정 제품이나 서비스 전시
  • 브랜드 맞춤 콘텐츠: 브랜드 일관성을 유지하면서 다양한 장면에 브랜드 요소 통합
  • 창의적 디자인 및 콘텐츠 제작: 디자이너와 콘텐츠 제작자에게 더 풍부한 창작 가능성 제공

일반화 능력 시연

UNO 모델은 강력한 일반화 능력을 보여주며, 다양한 작업을 통합적으로 처리할 수 있습니다:

  • 단일 주체에서 다중 주체로의 이전: 단순한 장면에서 복잡한 시나리오로 확장
  • 다른 스타일에 대한 적응: 주체 특성을 유지하면서 다양한 스타일 요구 사항에 적응
  • 다양한 창의적 작업의 통합: 이전에는 여러 전문 모델이 필요했던 작업을 하나의 모델로 처리

온라인 체험

다음 인터페이스를 통해 UNO의 강력한 기능을 직접 체험해볼 수 있습니다:

바이트댄스 UNO 모델 온라인 데모

기술 매개변수 및 오픈 소스 정보

UNO 모델은 FLUX.1을 기반으로 개발되었으며, 바이트댄스 팀에서 훈련 코드, 추론 코드 및 모델 가중치를 포함하여 오픈 소스로 제공됩니다.

프로젝트는 GitHub에서 사용할 수 있으며, 연구자와 개발자가 자유롭게 접근하고 기술을 사용할 수 있습니다. 프로젝트 코드는 Apache 2.0 라이선스를 따르며, 모델 가중치는 CC BY-NC 4.0 라이선스를 따릅니다. FLUX.1-dev 기본 모델과 관련된 모델은 원본 라이선스 조건을 준수해야 합니다.

관련 링크