구글이 PaliGemma 2 mix를 출시합니다: 다중 작업을 지원하는 오픈 소스 시각 언어 모델
구글은 공식적으로 PaliGemma 2 mix를 출시했습니다. 이는 강력한 다중 작업 시각 언어 모델입니다. 이 모델은 Gemma 시리즈의 최신 멤버로, 단일 모델에서 다양한 시각 관련 작업을 처리할 수 있으며, 이미지 설명, 광학 문자 인식(OCR), 목표 감지, 이미지 분할 등이 포함됩니다.
주요 특징
다중 작업 지원
PaliGemma 2 mix는 다양한 시각 작업을 지원합니다:
- 이미지 설명:정확하고 상세한 이미지 설명을 생성
- 광학 문자 인식(OCR):이미지 내의 텍스트 내용을 인식
- 목표 감지:이미지 내의 물체를 감지하고 위치를 특정
- 이미지 분할:이미지의 정밀한 의미론적 분할을 수행
- 문서 이해:문서 이미지의 내용을 이해하고 분석
- 오픈 엔드 시각 언어 프롬프트:유연한 시각 언어 상호작용을 지원
다양한 스케일 옵션
다른 애플리케이션 시나리오에 적응하기 위해, 모델은 세 가지 다른 스케일을 제공합니다:
- 3B 파라미터 버전:리소스가 제한된 시나리오에 적합
- 10B 파라미터 버전:성능과 리소스 소비를 균형 맞추기
- 28B 파라미터 버전:최고의 성능을 제공
유연한 해상도 지원
모델은 두 가지 이미지 입력 해상도를 지원합니다:
- 224px:일반적인 이미지 처리 작업에 적합
- 448px:보다 높은 세부 사항이 필요한 시나리오에 적합
개발자 친화적 특징
-
프레임워크 호환성
- Hugging Face Transformers 지원
- Keras 지원
- PyTorch 지원
- JAX 지원
- Gemma.cpp 지원
-
간단한 작업 전환
- 다른 프롬프트를 통해 다른 작업으로 전환
- 모델의 추가 로드 또는 전환 필요 없음
퀵 스타트
개발자는 다음 방법으로 PaliGemma 2 mix를 시작할 수 있습니다:
-
모델 다운로드
- Hugging Face 또는 Kaggle에서 사전 훈련된 모델을 다운로드
- 공식 문서에서 자세한 정보를 확인
- 예제 코드 저장소에서 빠르게 시작
-
개발 프레임워크 지원
- Hugging Face Transformers - 가장 인기 있는 AI 프레임워크 사용
- Keras - 공식 추천의 深度 학습 프레임워크
- PyTorch - 유연한 深度 학습 프레임워크
- JAX - 고성능 머신 러닝 프레임워크
- Gemma.cpp - C++ 배포 계획
-
학습 리소스
- 추론 튜토리얼에서 빠르게 시작
- 사용자 지정 데이터셋 微调 튜토리얼 시도
- 온라인 데모를 통해 모델 기능 경험
- Google Colab 노트북을 사용하여 실험
- Vertex Model Garden을 통해 클라우드 배포
미래 전망
구글은 PaliGemma 2 mix의 출시가 시작에 불과하다고 밝혔다. 팀은 모델 성능을 계속 최적화하고, 커뮤니티 피드백을 통해 사용자 경험을 지속적으로 개선할 것이다. 특정 분야에서 微调이 필요한 사용자를 위해, 공식은 완전한 문서와 예제 코드를 제공합니다.