구글이 PaliGemma 2 mix를 출시합니다: 다중 작업을 지원하는 오픈 소스 시각 언어 모델

구글은 공식적으로 PaliGemma 2 mix를 출시했습니다. 이는 강력한 다중 작업 시각 언어 모델입니다. 이 모델은 Gemma 시리즈의 최신 멤버로, 단일 모델에서 다양한 시각 관련 작업을 처리할 수 있으며, 이미지 설명, 광학 문자 인식(OCR), 목표 감지, 이미지 분할 등이 포함됩니다. PaliGemma 2 mix

주요 특징

다중 작업 지원

PaliGemma 2 mix는 다양한 시각 작업을 지원합니다:

이미지 설명：정확하고 상세한 이미지 설명을 생성
광학 문자 인식(OCR)：이미지 내의 텍스트 내용을 인식
목표 감지：이미지 내의 물체를 감지하고 위치를 특정
이미지 분할：이미지의 정밀한 의미론적 분할을 수행
문서 이해：문서 이미지의 내용을 이해하고 분석
오픈 엔드 시각 언어 프롬프트：유연한 시각 언어 상호작용을 지원

다양한 스케일 옵션

다른 애플리케이션 시나리오에 적응하기 위해, 모델은 세 가지 다른 스케일을 제공합니다:

3B 파라미터 버전：리소스가 제한된 시나리오에 적합
10B 파라미터 버전：성능과 리소스 소비를 균형 맞추기
28B 파라미터 버전：최고의 성능을 제공

유연한 해상도 지원

모델은 두 가지 이미지 입력 해상도를 지원합니다:

224px：일반적인 이미지 처리 작업에 적합
448px：보다 높은 세부 사항이 필요한 시나리오에 적합

개발자 친화적 특징

프레임워크 호환성
- Hugging Face Transformers 지원
- Keras 지원
- PyTorch 지원
- JAX 지원
- Gemma.cpp 지원
간단한 작업 전환
- 다른 프롬프트를 통해 다른 작업으로 전환
- 모델의 추가 로드 또는 전환 필요 없음

퀵 스타트

개발자는 다음 방법으로 PaliGemma 2 mix를 시작할 수 있습니다:

모델 다운로드
- Hugging Face 또는 Kaggle에서 사전 훈련된 모델을 다운로드
- 공식 문서에서 자세한 정보를 확인
- 예제 코드 저장소에서 빠르게 시작
개발 프레임워크 지원
- Hugging Face Transformers - 가장 인기 있는 AI 프레임워크 사용
- Keras - 공식 추천의 深度 학습 프레임워크
- PyTorch - 유연한 深度 학습 프레임워크
- JAX - 고성능 머신 러닝 프레임워크
- Gemma.cpp - C++ 배포 계획
학습 리소스
- 추론 튜토리얼에서 빠르게 시작
- 사용자 지정 데이터셋 微调 튜토리얼 시도
- 온라인 데모를 통해 모델 기능 경험
- Google Colab 노트북을 사용하여 실험
- Vertex Model Garden을 통해 클라우드 배포

미래 전망

구글은 PaliGemma 2 mix의 출시가 시작에 불과하다고 밝혔다. 팀은 모델 성능을 계속 최적화하고, 커뮤니티 피드백을 통해 사용자 경험을 지속적으로 개선할 것이다. 특정 분야에서 微调이 필요한 사용자를 위해, 공식은 완전한 문서와 예제 코드를 제공합니다.

원문 링크

RunningHub

RunComfy

Comfy Deploy

Comfy Online

Comfy.ICU

InstaSD

优云智算

ComfyUI 챌린지 #1: 참여하고 $100 상금 받기