텐센트, 훈위안 이미지 3.0 오픈소스 공개 - 세계 최대의 오픈소스 텍스트-이미지 생성 모델

텐센트는 9월 28일에 공식적으로 훈위안 이미지 3.0(HunyuanImage-3.0)을 오픈소스로 공개했습니다. 이는 최초로 공개된 상용 수준의 오픈소스 네이티브 멀티모달 이미지 생성 모델로, 현재까지 가장 파라미터 규모가 큰 오픈소스 이미지 생성 모델이며 총 파라미터 수는 80B에 달합니다.

주요 특징

전례 없는 파라미터 규모

훈위안 이미지 3.0은 총 80B 파라미터와 13B 활성 파라미터를 보유하며, 64개 전문가를 가진 MoE(Expert Mix, 전문가 혼합) 아키텍처를採用해 현재 세계 최대의 오픈소스 텍스트-이미지 생성 모델입니다.

세계 지식 추론 능력

이 모델은 세계 지식을 기반으로 추론하는 네이티브 멀티모달 기능을 갖추고 있으며, 상식과 전문 지식을 결합하여 보다 정확하고 풍부한 이미지 콘텐츠를 생성할 수 있습니다. 모델은 다음을 수행할 수 있습니다:

9개의 칸에 나눈 스케치 튜토리얼 및 알고리즘 플로우 시각화 생성
물리 원리, 역사적 사건, 생물 과정 설명
문학 작품 및 시를 기반으로 한 시각적 작품 제작

수천 단어의 복잡한 의미 이해

훈위안 이미지 3.0은 1000자 이상의 복잡한 의미 이해를 지원하며, 유사한 오픈소스 모델 중에서는 극히 드문 기능입니다. 모델은 다음을 수행할 수 있습니다:

복잡한 장면 설명 처리
다단계의 디테일 요구 사항 이해
중국어 및 영어 이중 언어 입력 지원

정확한 텍스트 렌더링

모델은 이미지 내 텍스트 생성 분야에서 뛰어난 성능을 보이며 다음을 지원합니다:

포스터 디자인에 포함된 제목 텍스트
인포그래픽에 포함된 주석 텍스트
브랜드 로고 및 상표
다양한 언어의 텍스트 혼합

기술 아키텍처

훈위안 이미지 3.0은 혁신적인 MoE+Transfusion 아키텍처를 채택하여 멀티모달 이해 및 생성 능력을 통합했습니다. 기존 DiT 아키텍처와 달리 이 모델은 통합된 자기회귀 프레임워크를 사용하여 텍스트와 이미지 모달 간의 심도 있는 통합을 실현했습니다.

학습 데이터

50억 개의 이미지-텍스트 쌍
6T 텍스트 토큰
점진적 학습 전략
강화 학습 후 학습 최적화

사용 요구사항

하드웨어 구성

이 모델은 일반적인 소비자용 GPU에 상당한 부담이 될 수 있으며, 80B 파라미터라는 거대한 규모를 고려할 때, 양자화된 버전조차도 일반적인 소비자용 GPU에서는 원활하게 작동하기 어려울 수 있습니다.

GPU: ≥3×80GB VRAM (권장 4×80GB)
저장 공간: 170GB 사용 가능 공간
메모리: 64GB 이상 시스템 RAM
시스템: Linux + CUDA 12.8

오픈소스 계획

훈위안 이미지 3.0은 다음과 같은 완전한 오픈소스 솔루션을 제공합니다:

추론 코드 및 모델 가중치
훈위안이미지-3.0 기본 버전
훈위안이미지-3.0-인스트럭트 지시 버전(추론 기능 지원)
향후 이미지-이미지 생성, 다중 회전 대화 등의 기능 지원 예정

오픈소스 라이선스

훈위안 이미지 3.0은 Tencent Hunyuan Community License Agreement 오픈소스 라이선스를 채택합니다. 이 라이선스는 다음을 허용합니다:

개인 및 기업이 모델을 무료로 사용, 복사, 배포 및 수정할 수 있음
상업적 사용 및 파생작품 개발 지원
API 또는 다른 수단을 통한 호스팅 서비스 제공 허용

중요 제한 사항

지리적 제한: 이 라이선스는 EU, 영국 및 한국 지역에는 적용되지 않습니다.
사용자 규모 제한: 귀하의 제품 또는 서비스의 월간 활성 사용자가 1억 명을 초과하는 경우, 텐센트에 추가 라이선스를 신청해야 합니다.
사용 제한: 모델 출력을 다른 AI 모델(훈위안 시리즈 제외) 개선에 사용하는 것을 금지합니다.
준수 요구 사항: 각국의 법률 및 규정과 허용되는 사용 정책을 준수해야 합니다.