THUDM, 새로운 이미지 생성 모델 오픈 소스화: CogView3 및 CogView-3Plus

THUDM은 최근 GitHub에 최신 이미지 생성 모델 CogView3 및 CogView-3Plus-3B를 오픈 소스화했습니다. 이 두 모델은 텍스트-이미지 생성 분야의 최신 발전을 대표하며, 인상적인 성능과 효율성을 보여줍니다.

CogView3: 계단식 확산의 혁신

CogView3는 계단식 확산에 기반한 텍스트-이미지 생성 시스템입니다. "릴레이 확산"이라는 새로운 프레임워크를 사용하여 고해상도 이미지를 여러 단계로 나누어 생성합니다. 릴레이 초해상도 과정을 통해 시스템은 먼저 저해상도 이미지를 생성한 후, 가우시안 노이즈를 추가하고, 이 노이즈가 있는 이미지에서 새로운 확산 과정을 시작합니다.

THUDM의 연구에 따르면, CogView3는 인간 평가에서 SDXL을 최대 77.0%의 승률로 능가합니다. 더욱 놀라운 것은 CogView3의 생성 시간이 SDXL의 10분의 1에 불과하다는 점으로, 이는 실용적인 응용에 중요한 의미를 가집니다.

CogView-3Plus-3B: 경량 DiT 모델

CogView3와 함께, THUDM은 DiT (Diffusion Transformer) 아키텍처에 기반한 이미지 생성 모델인 CogView-3Plus-3B도 오픈 소스화했습니다. DiT 모델은 확산 모델과 트랜스포머의 장점을 결합하여 이미지 생성 작업에서 강력한 성능을 보여줍니다.

상대적으로 경량 모델(3B 파라미터만 포함)인 CogView-3Plus-3B는 고품질 출력을 유지하면서 더 빠른 추론 속도와 낮은 자원 요구를 제공하는 것을 목표로 합니다.

오픈 소스 기여

CogView3 및 CogView-3Plus-3B를 오픈 소스화함으로써, THUDM은 연구 커뮤니티에 귀중한 자원을 제공할 뿐만 아니라 개발자와 기업이 고급 이미지 생성 기술을 실용적인 응용에 통합할 수 있는 가능성을 제공합니다. 이 두 모델의 오픈 소스화는 텍스트-이미지 생성 기술과 그 응용을 더욱 발전시키는 데 도움이 될 것입니다.

미래 전망

CogView3 및 CogView-3Plus-3B의 오픈 소스화로 인해, 이러한 모델을 기반으로 한 더 많은 혁신적인 응용을 기대할 수 있습니다. 창의적 디자인에서 콘텐츠 생성, 시각적 보조 도구에 이르기까지, 이 모델들은 다양한 잠재적 응용 시나리오를 가지고 있습니다.

동시에, 이는 다른 연구 팀에게도 귀중한 참고 자료를 제공하여 이미지 생성 분야에서 더 많은 혁신과 돌파구를 영감을 줄 수 있습니다.

참고 링크

CogView3 GitHub 저장소: CogView3 GitHub 저장소