谷歌发布 PaliGemma 2 mix：支持多任务的开源视觉语言模型

谷歌正式发布了 PaliGemma 2 mix，这是一个强大的多任务视觉语言模型。该模型是 Gemma 系列的最新成员，能够在单一模型中处理多种视觉相关任务，包括图像描述、光学字符识别(OCR)、目标检测、图像分割等。

主要特点

PaliGemma 2 mix 支持多种视觉任务：

为适应不同的应用场景，模型提供三种不同规模：

模型支持两种图像输入分辨率：

框架兼容性
- 支持 Hugging Face Transformers
- 支持 Keras
- 支持 PyTorch
- 支持 JAX
- 支持 Gemma.cpp
简单的任务切换
- 通过不同的提示即可切换不同任务
- 无需额外的模型加载或切换

开发者可以通过以下方式开始使用 PaliGemma 2 mix：

模型下载
- 从 Hugging Face 或 Kaggle 下载预训练模型
- 查看官方文档了解详细信息
- 参考示例代码库快速上手
开发框架支持
- Hugging Face Transformers - 使用最流行的 AI 框架
- Keras - 官方推荐的深度学习框架
- PyTorch - 灵活的深度学习框架
- JAX - 高性能机器学习框架
- Gemma.cpp - C++部署方案
学习资源
- 参考推理教程快速开始使用
- 尝试自定义数据集微调教程
- 通过在线演示体验模型功能
- 使用 Google Colab 笔记本进行实验
- 通过 Vertex Model Garden 进行云端部署

谷歌表示，PaliGemma 2 mix 的发布只是开始。团队将继续优化模型性能，并通过社区反馈不断改进用户体验。对于需要在特定领域进行微调的用户，官方提供了完整的文档和示例代码。