Skip to content
ComfyUI Wiki가 광고를 제거하도록 도와주세요 후원자 되기
새소식DeepSeek, Janus-Pro-7B 멀티모달 AI 모델 오픈소스 공개

DeepSeek, Janus-Pro-7B 멀티모달 AI 모델 오픈소스 공개

중국 AI 기업 DeepSeek은 오늘 새벽 차세대 멀티모달 모델 Janus-Pro-7B를 오픈소스로 공개했습니다. 이 모델은 이미지 생성 및 시각 질의응답과 같은 작업에서 OpenAI의 DALL-E 3와 Stable Diffusion 3를 능가하며, “이해-생성 이중 경로” 아키텍처와 간결한 배포 솔루션으로 AI 커뮤니티에 큰 반향을 일으켰습니다. 공식 발표 보기

성능: 작은 모델이 업계 거인을 능가

Janus

7억 개의 파라미터(약 GPT-4의 1/25)만을 가지고 있음에도 불구하고, Janus-Pro-7B는 주요 테스트에서 경쟁사를 능가합니다:

  • 텍스트-이미지 품질: GenEval 테스트에서 80% 정확도를 달성하며, DALL-E 3(67%)와 Stable Diffusion 3(74%)를 능가
  • 복잡한 명령 이해: DPG-Bench 테스트에서 84.19% 정확도를 기록, “푸른 호수가 있는 설산”과 같은 복잡한 장면을 정확하게 생성
  • 멀티모달 질의응답: 시각 질의응답 정확도가 GPT-4V를 능가하며, MMBench 테스트 점수는 79.2로 전문 분석 모델에 근접 DeepSeek

기술적 돌파: “야누스” 같은 이중 경로 협업

기존 모델은 이해와 이미지 생성을 위해 동일한 시각 인코더를 사용하며, 이는 요리사에게 메뉴를 디자인하고 동시에 요리하라고 요청하는 것과 같습니다. Janus-Pro-7B는 시각 처리를 두 개의 독립적인 경로로 혁신적으로 분할합니다:

  1. 이해 경로: SigLIP-L 시각 인코더를 사용하여 이미지에서 핵심 정보를 빠르게 추출(예: “소파 위의 주황색 고양이”)
  2. 생성 경로: VQ 토크나이저를 통해 이미지를 픽셀 배열로 분해, 레고 블록을 조립하듯 세부 사항을 점진적으로 그려냄(예: 털 질감, 조명 효과) 이 “분할 정복” 설계는 기존 모델의 역할 충돌을 해결하고 7200만 개의 합성 이미지와 실제 데이터를 혼합하여 학습함으로써 생성 안정성을 향상시켰습니다.

오픈소스 및 상용 사용

  • 상용 사용 무료: MIT 라이선스로 공개되어 무제한 상용 사용 가능
  • 간결한 배포: 1.5B(16GB VRAM 필요) 및 7B(24GB VRAM 필요) 버전 제공, 표준 GPU에서 실행 가능
  • 원클릭 생성: 공식 Gradio 인터페이스 제공; generate_image(prompt="일몰의 설산", num_images=4) 입력으로 이미지 일괄 생성 가능

공식 리소스:


적용 시나리오: 예술부터 개인정보 보호까지

  1. 창작 산업: 디자이너가 텍스트를 입력하여 포스터 프로토타입 생성; 게임 개발자가 신속하게 장면 자산 구축
  2. 교육 도구: 교사가 지리 수업에서 화산 폭발의 동적 일러스트 생성
  3. 기업 개인정보 보호: 병원 및 은행이 로컬에 배포하여 환자 기록이나 금융 데이터를 클라우드에 업로드할 필요 없음
  4. 문화 전파: 전 세계 랜드마크(예: 항저우의 서호)를 인식하고 문화적 상징이 담긴 이미지 생성

DeepSeek Janus 공식 리소스**