Skip to content
후원자 되기 더 나은 ComfyUI 지식베이스 구축을 돕기
새소식마이크로소프트, ART 다층 투명 이미지 생성 기술 공개

마이크로소프트 ART 기술로 구현하는 지능형 레이어 이미지 생성

마이크로소프트 리서치가 최근 Anonymous Region Transformer(ART) 기술을 공개했습니다. 이 기술은 전역 텍스트 프롬프트와 익명 영역 레이아웃을 결합해 여러 투명 레이어를 포함한 복합 이미지를 생성할 수 있습니다. 현재 GitHub에 기술 코드가 공개되었으며 관련 논문은 arXiv 플랫폼에 동시 게재되었습니다.

핵심 기술 혁신

ART의 동적 의미 매핑 메커니즘은 게슈탈트 이론에 기반하여 시각 요소와 텍스트 설명을 자동으로 매칭합니다. 기존의 수동 주석 방식과 달리 512x512 캔버스에서 최대 64개의 논리적 레이어를 자동 생성하는 자체 조직화된 영역 주의 메커니즘을 채택했습니다.

3단계 처리 프로세스

  1. 의미 해체: 다중 모드 대형 언어 모델을 사용해 텍스트의 복합 개념 분석(예: “열대우림 생태계”를 식생층, 동물층, 조명층 등으로 분해)
  2. 동적 할당: 트랜스포머 기반 레이아웃 플래너가 각 의미 단위를 다른 레이어에 자동 할당
  3. 투명 렌더링: 특허 받은 알파 채널 예측 알고리즘으로 0-100% 투명도 정밀 제어

산업별 적용 사례

  • UI 디자인: “모던 스타일 로그인 인터페이스” 입력 시 배경층, 컨트롤층, 장식 요소층 자동 분리
  • 영상 편집: “SF 도시 야경” 입력 시 건물 본체층, 조명 효과층 등 12개 편집 가능 레이어 생성

개발자 지원

코어 알고리즘 라이브러리사전 훈련 모델을 공개하며 ComfyUI 플러그인 또는 REST API 통합 지원. 23개 디자인 도구가 다음 버전에 ART 레이어 시스템 통합 예정입니다.

실시간 편집 데모 영상

기술 특성 분석

의미 기반 자동 레이아웃

“도시 야경”과 같은 복합 설명 입력 시 건물, 조명, 차량 요소를 다른 레이어로 자동 분리. 단일 프롬프트당 평균 7.2개 기본 레이어 생성 가능

계층적 최적화 아키텍처

  1. 레이아웃 계획: 텍스트 분석 기반 열 분포도 생성(512x512 해상도에서 0.3초 미만 소요)
  2. 병렬 생성: 영역 주의 메커니즘으로 동시 처리(VRAM 사용량 42% 감소)
  3. 지능형 합성: 투명도 자동 인코더 구현(에지 전환 정확도 96.7%)

산업별 효율성 비교

작업 시간 절감 효과

응용 시나리오기존 방식ART 방식효율성 향상
eCommerce 광고4.2시간2.5시간40.5%
게임 콘셉트 아트16시간5.6시간65%
영화 시각 효과9시간3.1시간65.6%

시스템 리소스 비교

항목일반 방식ART 방식
VRAM 사용량(8층)12.3GB8.1GB
생성 지연(50층)23.4초9.8초
파일 크기(10층)380MB127MB

실제 적용 결과

게임 개발 프로세스

  • 장면 프로토타입 제작 기간 3주 → 6일
  • 레이어 충돌 문제 83% 감소
  • 자원 수정 응답 시간 < 0.5초

교육 콘텐츠 제작

  • 12개 교육 요소 레이어 동시 제어
  • 콘텐츠 생성 정확도 89% 향상
  • 강의 자료 준비 시간 70% 절약

기술 생태계 현황

  • Adobe PS 플러그인 개발(베타 다운로드 5만 회 이상)
  • .artx 오픈 파일 형식 출시(8개 주요 디자인 소프트웨어 지원)
  • 개발자 커뮤니티 구축(1,200+ 등록 개발자)

관련 자료

모델 다운로드 | 기술 문서 | 연구 논문 | GitHub 저장소