Skip to content
成为赞助者 帮助构建更好的 ComfyUI 知识库
新闻谷歌发布 PaliGemma 2 mix:支持多任务的开源视觉语言模型

谷歌发布 PaliGemma 2 mix:支持多任务的开源视觉语言模型

谷歌正式发布了 PaliGemma 2 mix,这是一个强大的多任务视觉语言模型。该模型是 Gemma 系列的最新成员,能够在单一模型中处理多种视觉相关任务,包括图像描述、光学字符识别(OCR)、目标检测、图像分割等。 PaliGemma 2 mix

主要特点

多任务支持

PaliGemma 2 mix 支持多种视觉任务:

  • 图像描述:生成准确、详细的图像描述
  • 光学字符识别(OCR):识别图像中的文字内容
  • 目标检测:检测并定位图像中的物体
  • 图像分割:对图像进行精确的语义分割
  • 文档理解:理解和分析文档图像内容
  • 开放式视觉语言提示:支持灵活的视觉语言交互

多种规模选择

为适应不同的应用场景,模型提供三种不同规模:

  • 3B 参数版本:适合资源受限的场景
  • 10B 参数版本:平衡性能和资源消耗
  • 28B 参数版本:提供最佳性能表现

灵活的分辨率支持

模型支持两种图像输入分辨率:

  • 224px:适合常规图像处理任务
  • 448px:适合需要更高细节的场景

开发者友好特性

  1. 框架兼容性

    • 支持 Hugging Face Transformers
    • 支持 Keras
    • 支持 PyTorch
    • 支持 JAX
    • 支持 Gemma.cpp
  2. 简单的任务切换

    • 通过不同的提示即可切换不同任务
    • 无需额外的模型加载或切换

快速开始

开发者可以通过以下方式开始使用 PaliGemma 2 mix:

  1. 模型下载

  2. 开发框架支持

  3. 学习资源

未来展望

谷歌表示,PaliGemma 2 mix 的发布只是开始。团队将继续优化模型性能,并通过社区反馈不断改进用户体验。对于需要在特定领域进行微调的用户,官方提供了完整的文档和示例代码。

原文链接